MiniMax 发布万亿参数模型
4月17日,稀宇科技MiniMax宣布推出abab 6.5系列模型。abab 6.5系列包含两个模型:abab 6.5和abab 6.5s。据介绍,abab 6.5包含万亿参数,支持200k tokens的上下文长度;abab 6.5s跟abab 6.5使用了同样的训练技术和数据,但是更高效,支持200k tokens的上下文长度,可以1秒内处理近3万字的文本。在各类核心能力测试中,abab 6.5开始接近GPT-4、Claude-3、Gemini-1.5等大语言模型。
MiniMax此次发文提到,在升级至万亿参数的过程中,找到了越来越多加速实现Scaling Laws(尺度定律)的途径,包括改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等,此次发布的 abab 6.5 和 abab 6.5s 就是加速 Scaling Laws 过程的阶段性成果。