新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》。
激发中国经济新动力,相约2024年的夏天。7月3日下午,新京报贝壳财经夏季年会“通往未来向新有AI”主题论坛在北京正大中心举行。会上,新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。
本次报告经北京大学、清华大学、浙江大学、中国传媒大学等高校教授的学术指导,与北京智源研究院、中国经济传媒协会联合发布。报告包含针对公众及传媒行业的调查问卷,新京报人工智能研究院还研发了针对大模型助手传媒能力的测评体系,本次测评共综合考察了9款大模型助手的文本生成能力、事实核查与价值观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力。总体得分上,通义千问、腾讯元宝、讯飞星火夺得前三名;横向对比来看,翻译能力、事实核查与价值观判断能力两项能力最令测试员满意,而长文本能力则得分最低。