阿里巴巴开源Qianwen 3型号，成本仅为DeepSeek_每日大赛-吃瓜爆料：暗黑爆料免费版

封面新闻记者Ouyang Hongyu于4月29日上午，阿里巴巴开设了Thyi Qianwen Model Qwen3的新一代（称为Qianwen3）。根据

封面新闻记者Ouyang Hongyu于4月29日上午，阿里巴巴开设了Thyi Qianwen Model Qwen3的新一代（称为Qianwen3）。据报道，该大型大型模型的参数数量仅为DeepSeek-R1的1/3，并且成本显着下降，其性能超过R1，OpenAI-O1等。公共信息表明，Qianwen3是中国的第一个“混合推理模型”。 “快速思考”和“缓慢思考”被整合到同一模型中，从而大大节省了计算强度的消耗。据了解，Qianwen3采用了混合专家（MOE）的体系结构，总参数为235b，仅需要22B才能激活，并且预先培训的数据量达到了36T令牌。在训练后阶段进行了许多强化研究之后，该模型并未认为无需集成到思维模型中。这在推理，遵守教学和工具方面高度增强呼叫，多语言功能等。当前，Qianwen 3模型版本包括230B和235B MOE型号，以及6种密集型型号，包括0.6B，1.7B，4B，4B，8B，14B和32B。值得注意的是，随着性能的改善，扩大Qianwen 3的成本也大大下降。只能使用4 H20来部署Qianwen 3全样版本，而视频记忆消耗仅为具有相似性能的模型的三分之一。

百度工具屋 - 织梦模板精品建站拥有平衡式人生！

阿里巴巴开源Qianwen 3型号，成本仅为DeepSeek

您的回复是我们的动力！

网友最新评论