封面新闻记者Ouyang Hongyu于4月29日上午,阿里巴巴开设了Thyi Qianwen Model Qwen3的新一代(称为Qianwen3)。根据
封面新闻记者Ouyang Hongyu于4月29日上午,阿里巴巴开设了Thyi Qianwen Model Qwen3的新一代(称为Qianwen3)。据报道,该大型大型模型的参数数量仅为DeepSeek-R1的1/3,并且成本显着下降,其性能超过R1,OpenAI-O1等。公共信息表明,Qianwen3是中国的第一个“混合推理模型”。 “快速思考”和“缓慢思考”被整合到同一模型中,从而大大节省了计算强度的消耗。据了解,Qianwen3采用了混合专家(MOE)的体系结构,总参数为235b,仅需要22B才能激活,并且预先培训的数据量达到了36T令牌。在训练后阶段进行了许多强化研究之后,该模型并未认为无需集成到思维模型中。这在推理,遵守教学和工具方面高度增强呼叫,多语言功能等。当前,Qianwen 3模型版本包括230B和235B MOE型号,以及6种密集型型号,包括0.6B,1.7B,4B,4B,8B,14B和32B。值得注意的是,随着性能的改善,扩大Qianwen 3的成本也大大下降。只能使用4 H20来部署Qianwen 3全样版本,而视频记忆消耗仅为具有相似性能的模型的三分之一。