随着人工智能大语言模型表现出接近人类的智能,高难度、综合性考试被越来越多地引入语言模型评测。OpenAI在GPT-4技术报告中,就通过各领域的考试对模型能力进行检验。今天是高考第一天,上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学发布了千亿级参数大语言模型“书生·浦语”(InternLM),它在中国高考等多项中文考试中取得的成绩超过ChatGPT。
“书生·浦语”有1040亿参数,在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测显示,这个大模型不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,所以在综合性考试中表现突出,包括中国高考各科目的数据集(GaoKao)。
联合研发团队选取20余项评测对“书生·浦语”进行检验,其中有全球最具影响力的4个综合性考试评测集:由加州大学伯克利分校等高校构建的多任务考试评测集MMLU;微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和 GMAT等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;由复旦大学研究团队构建的中国高考题目评测集Gaokao,包含各个科目以及选择、填空、问答等多种题型。