近日,有消息称,华裔科学家、“AI教母”李飞飞的团队研究人员以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型。记者从相关人士处了解到,这个s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。
李飞飞团队发表的公开论文显示,基于 Qwen2.5-32B-Instruct 语言模型进行监督微调后的 s1-32B 模型,在竞赛数学问题上的表现超过了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果。这个过程中,李飞飞团队主要使用了一个包含 1000 个问题及其推理轨迹的小型数据集 s1K并开发了预算强制(budget forcing)技术延长模型思考,以超低成本构建了一个高质量模型。
如何用最简单的方法实现模型测试时扩展(即允许人工智能模型在回答问题之前进行更多思考)和强大推理性能?李飞飞团队尝试将模型成本“打下来”的背后,开源、数据和技术的突破都是关键环节。