李飞飞团队低成本复刻DeepSeek-R1模型？算力成本桎梏正在被打破

　　近日，有消息称，华裔科学家、“AI教母”李飞飞的团队研究人员以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型。记者从相关人士处了解到，这个s1模型的训练并非从零开始，而是基于阿里云通义千问（Qwen）模型进行监督微调。

　　李飞飞团队发表的公开论文显示，基于 Qwen2.5-32B-Instruct 语言模型进行监督微调后的 s1-32B 模型，在竞赛数学问题上的表现超过了 o1-preview，最高提升了 27%（MATH 和 AIME24），取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果。这个过程中，李飞飞团队主要使用了一个包含 1000 个问题及其推理轨迹的小型数据集 s1K并开发了预算强制（budget forcing）技术延长模型思考，以超低成本构建了一个高质量模型。

　　如何用最简单的方法实现模型测试时扩展（即允许人工智能模型在回答问题之前进行更多思考）和强大推理性能？李飞飞团队尝试将模型成本“打下来”的背后，开源、数据和技术的突破都是关键环节。