4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),在美国硅谷技术圈引起热议。苹果机器学习科学家奥维尼·汉农(Awni Hannun)第一时间就在苹果处理器芯片上完成千问3全系列模型测试,认为“有很酷的特性”,并表示苹果机器学习框架与千问3是最佳搭档,开发者可以在苹果多终端上适配部署千问3,包括Mac、 iPhone等。
奥维尼·汉农的测试数据显示,在M2 Ultra芯片运行235B混合专家模型(MoE)时,仅需132GB内存即可实现每秒28个token的生成速度;而在M4 Max芯片上,部分模型版本最高吞吐522.43 tokens/s,最低内存占用仅0.44GB。
所有千问3模型都是混合推理模型,可通过API设置预期最大思考深度,实现「快思考」与「慢推理」的模式切换,为不同场景提供灵活的性能成本方案。这个技术特性让奥维尼·汉农觉得“很酷”。
鉴于千问3与苹果芯片平台展现出良好的适配性,奥维尼·汉农表示,MLX(苹果机器学习框架)与千问3是最佳搭档。开发者已可通过mlx-lm在苹果多终端部署千问3全系列模型,涵盖从iPhone到Macbook Pro直至工作站级设备的多款产品。
雷峰网版权文章,未经授权禁止转载。