生成式AI时代,训练和托管大模型都会产生大量成本开销,特别是算力成本。
近日举办的火山引擎2024 FORCE原动力大会上,英特尔与火山引擎共同发布搭载英特尔至强6性能核处理器的第四代通用计算型实例 g4il。
“g4il云实例相较于GPU实例,资源门槛直降50%。”英特尔公司市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉表示,“英特尔联合火山引擎提供了预验证、优化的模块组件、集成化镜像,也实现了一键部署,优化了用户体验。”
英特尔公司市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉
火山引擎计算产品负责人王睿说,“对于希望利用AI实现业务持续增长获得新机遇的企业用户来说,上云是解决这个问题的最优解。”
作为AI基础设施重要的提供商,英特尔和火山引擎共同发布的第四代通用计算型实例 g4i无疑是AI应用开发者理想的选择,也是激发AI创新的基石。
关键问题在于,到底能降低多少成本?安全性如何保证?Coze-AIPC又能带来怎样的从云到端的AI解决方案?
CPU相比GPU云实例资源门槛大降50%
火山引擎第四代通用计算型实例g4il是基于英特尔最新一代服务器CPU至强6性能核。
至强6性能核主要用于通用计算、数据Web服务、科学计算、AI等场景。性能相比上一代平均提高超过2倍,尤其是科学计算,有超过2.5倍的提高,对AI大语言模型甚至有超过3倍的性能提高。至强6性能核处理器在性能大幅提升的同时还兼顾了能效,相比上代有1.5倍甚至更高。
需要强调的是,火山引擎第四代通用计算型实例 g4i采用的定制版至强6性能核处理器。
“基于至强6性能核的优势,我们和火山引擎深入的合作,定制了至强6 CPU,有针对性地优化了性能、TCO,尽量满足火山引擎的需求,充分发挥CPU的优势。”英特尔技术专家在火山引擎2024 FORCE原动力大会英特尔专场分论坛上表示。
除了英特尔至强6性能核处理器GNR,火山引擎全新发布的第四代通用计算型实例g4il还有火山引擎自研的DPU,实现了计算、存储和网络性能的全面升级。
相比上一代云实例g3il,第四代实例g4il网络和存储性能提升了100%,IOPS和PPS性能提升30%以上,视频转码、Web应用、和数据库应用方面分别实现了17%、19%和20%的性能提升。
对于AI开发者,云实例的高速内存也很关键。
英特尔在至强6性能核处理器上新增了高速内存MRDIMM,同时新增了支持AMX FP16指令集,更大的内存带宽叠加更强的矩阵运算能力,能大幅提升AI推理速度。
“英特尔至强6性能核处理器GNR加上MRDIMM,实测的吞吐性能相比英特尔EMR CPU加上通用型DDR5内存提升高达80%。”王睿指出,“对比单卡的A10和L20 GPU测试结果,也印证了英特尔至强6的AI推理能力的优势很大。”
得益于单机CPU核密度相比上一代翻倍的提升,计算新架构在性价比上也有很大提升。
同时,英特尔至强处理器也为火山引擎带来了更高的数据存储效率和可靠性。
第四代实例g4il上进一步丰富了实例的功能,比如说新增了大包传输能力(Jumbo Frame),机密计算能力(TDX),以及支撑最新云盘吞吐类型SSD。
性价比通过云的方式能展现出更大优势。
云最大的特点就是弹性,火山引擎通过海量内外资源共池可以满足企业在托管AI技术、技术智算化转型过程当中的算力需求。
一方面通过共池,可以把超大规模的资源复用带来的议价能力、成本红利释放给火山引擎的终端用户。另一方面,通过超大规模集团内外共池带来的议价能力,可以把成本红利返还给客户。
“我们的弹性能力,每天的峰值可以达到100万核,弹性效率可以实现分钟级别10万核。”王睿说,“结合集团内外潮汐复用特点,我们对外提供了业界首创的弹性售卖方式——弹性预约实例ESI。相比之前的按需按量来讲,成本最多降低33%以上。”
机密计算保障云上大模型数据安全
激发生成式AI的应用爆发,不仅要门槛低,还需要足够稳定和安全。
“火山引擎采用了双单路创新服务器架构,降低了整体的爆炸半径,有力保障了产品稳定性。”王睿还介绍。
同时,火山引擎云存储引入了至强处理器的英特尔数据保护与压缩加速技术(英特尔QAT),提升了数据压缩和解压缩效率,实现优于软件LZ4算法的压缩率和更低时延。
QAT硬件加速生成CRC32校验码,确保数据完整性,并支持AES-XTS模式的对称加密,增强数据可靠性。
可靠性之外,安全性也是上云的痛点。
随着大模型应用产业化深入,无论是模型的训练和调优,还是模型推理服务部署,都越来越多依赖于更高质量、更高价值的敏感的数据信息,比如行业数据库或企业数据库。
“如今,数据安全已经成为大模型产业化应用进程中面临的一大挑战。”英特尔技术专家表示。
RAG(检索增强生成)包含了两个技术,一个是基于知识库、数据库的内容检索,另一个是基于大模型的内容生成。RAG通用引用外部知识库或者企业知识库,让大模型产生内容时可以提升生成结果质量和准确性。
不过在企业部署RAG服务时,会对信息是否被窃取有所疑虑。基于英特尔TDX构建的机密虚拟化实例,无论是RAG应用中的信息提取处理流程还是数据库流程,还是模型生成流程,都可以在不改变应用程序中间框架前提下,直接访问机密虚拟机,实现云中的隔离和保护,用户使用RAG部署过程保证数据安全。
英特尔已经和火山引擎紧密配合,基于英特尔至强处理器TDX技术,推出了g3i机密计算实例,用户既可以享受到云计算的便捷性、经济性,同时确保自己数据在云中用得放心。
考虑到机密计算技术栈比较复杂,为了让用户可以针对自己感兴趣或者是关注的业务直接防盗云上进行原形验证,英特尔推出了开源项目CC-Zoo。
“CC-Zoo主动和云服务商提供的基础环境进行了对接和适配,包括火山引擎的g3i实例。”英特尔技术专家表示,“用户可以左手从云服务商购买机密计算的实例,右手去GitHub上下载CC-Zoo方案进行原形验证,确认信息没有被盗取。”
针对云上的AI场景,火山引擎打造了端到端安全解决方案。
在机密计算云服务器之上,火山引擎提供了机密容器、密钥管理、基线管理、远程证明和安全RAG等丰富的安全能力和服务,为AI应用当中的训练推理,前后端数据处理全场景提供安全保障。
从云到端激发生成式AI应用创新
云计算能够提供性能强大、门槛更低且更安全可靠的AI解决方案,触达更多AI开发者需要从云到端的解决方案。
火山引擎2024 FORCE原动力大会上,扣子联合英特尔共同发布了“Coze-AIPC”,这是一个增强版的扣子智能体开发平台。
扣子(Coze)字节推出的新一代AI 大模型智能体开发平台,Coze-AIPC引入了一款运行于英特尔平台PC端的扣子App,深度整合英特尔 AI PC 强大端侧能力与扣子云平台优势。
通过扣子创新的“端插件”机制,英特尔AI PC的PC操控、本地知识库、本地推理、本地生成等能力被无缝嵌入扣子大模型与工作流。
开发者借助Coze-AIPC平台“端插件商店”中预制的PC端侧能力集,能迅速开发出适配英特尔AI PC的智能体应用,平台还将支持开发者创建更多个性化端插件拓展端侧能力边界。
在生成式AI的时代,英特尔正凭借涵盖算力基础设施、平台基础设施、数智基础平台在内的企业数据和AI架构的解决方案,与包括火山引擎在内的众多合作伙伴一起,为前沿的AI技术研究,以及大语言模型的广泛落地提供强大的AI基础设施。
英特尔也在致力于构建一个可以一键部署,优化用户体验的AI软硬件解决方案,激发更多的AI创新。雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。