6月28日,腾讯云副总裁李力在A2M人工智能创新峰会上宣布,腾讯云推出基于公有云的成熟实践的专有云智算套件。
该套件集合了腾讯云高性能计算集群构建模块、智能高性能网络IHN、高并发文件存储系统TurboFS、算力加速框架Taco以及GPU算力共享技术等核心能力,与腾讯云专有云平台TCE结合,能够支撑企业基于自有硬件搭建高性能的专有智算云,满足在私有算力环境下训练大模型的诉求。
据了解,腾讯云智算套件提供的算、存、网一体的云原生能力,能够帮助企业高效利用算力卡资源,解决算力集群的木桶短板效应。比如,腾讯云自研高性能智能网络IHN,能够实现企业算力卡持续稳定高带宽通信;腾讯云高性能文件存储系统,能够有效解决海量数据存储的读写性能瓶颈问题。
同时,智算套件还在调度架构层融合了腾讯云自研的算力加速框架Taco和GPU算力共享技术qGPU。其中Taco基于网络协议、通信策略、AI 框架、模型编译等多层级的优化,能够大幅提升大模型训练和推理业务性能;qGPU能够在算力集群内对算力卡实现精准切分,提升卡的利用效率。
另一方面,腾讯云TCE拥有跟公有云同源同构的技术架构和“一云多芯”的能力,能够灵活支持不同规模的云平台构建,还能屏蔽底层硬件差异,更好地纳管不同类型的硬件设施。
腾讯云智算套件源自腾讯云公有云算力集群HCC的成熟实践。去年,腾讯云在行业率先发布了大模型公有云算力集群HCC,该集群结合腾讯云星星海自研服务器,腾讯云自研高性能智能网络提供的3.2T超高互联带宽,以及腾讯自研高并发文件存储系统,能够为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
当前,AI正在逐步从辅助技术成为引领行业变革的关键要素。作为这一变革的重要支撑之一,云计算正与AI深度融合,孕育出AI原生云这一全新的技术形态。
腾讯云联合Gartner发布的《AI原生云建设与加速指南》指出,AI原生云将AI技术深度融合到云服务的每一个层面,并着重于开放性和生态系统的构建,通过提供丰富的API和SDK,以支持AI原生新服务和应用的开发。
李力介绍,腾讯云将围绕AI原生云,为客户提供生成式AI驱动的新一代云平台架构,为客户带来AI原生理念的基础设施、模型、工程、应用、全栈安全防护等五大核心能力。
其中,基础设施层,腾讯云构建了支持多GPU卡型的统一算力平台,结合长稳训练、利用率提升以及任务和节点的异常恢复机制等技术,能够助力模型训练提效 200%,提升硬件资源利用率至 99%+。
在工程平台层面,腾讯云打造了基于腾讯云高性能服务HAI 与 云端开发工具CloudStudio的GPU开发空间;腾讯云向量数据库提供了全面的数据检索增强套件能力;腾讯云机器学习平台TI提供了从数据标注到模型推理的工具链。在此之上,腾讯云OrcaTerm AI助手、AI代码助手可以提供智能运维、技术问答、代码补全等AI辅助能力。
在模型层,腾讯自研的大模型混元最大参数量级已过万亿,在国内率先采用混合专家模型 (MoE) 结构,部分中文能力已追平GPT-4,在“时新”问题的回答表现上,数学、推理等能力上均有较大提升。同时,腾讯会议等腾讯SaaS产品已经全面接入腾讯混元大模型。
在安全方面,腾讯全栈安全产品都已应用AI技术,并在实际攻防场景中守护安全防线,同时,腾讯云还在积极探索生成式AI在安全场景的落地。
值得一提的是,腾讯云还支持通过分布式云的方式部署,能够为用户在多云、混合云场景下提供一致的产品服务和体验,并且通过集中管控,统一管理位于不同位置的云资源和业务应用,帮助用户在任意位置获取需要的AI原生云资源与云服务。
截至目前,包括百川智能、MiniMax、智谱科技、元象等在内的90%头部大模型企业,都在使用腾讯云的解决方案。
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。