甲骨文AI研究院推出“超越”中文大模型测试集

5月22日消息，近日，甲骨文AI研究院推出了“超越”中文大模型测试集，旨在衡量中文大模型处理多任务的能力。该测试集涵盖了医疗、法律、心理学和教育等多个领域，题目数量达到了1万+。

据甲骨文AI研究院首席研究员Felix介绍，该测试集的推出是为了希望中文大语言模型能够超越现状，通过发现大模型的缺陷，从而促进大模型理解中文语言的能力。测试集涉及语、数、物理、化学等多个科目，以确保模型测试的知识的广度和深度，从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。

在使用“超越”中文大模型测试集时，咸宁针对MMCU测试集的使用情况进行了分享，并对几大模型的测试成果进行了展示与客观分析。通过大模型测试发现，在本应有明显优势的语文科目中，国产大模型的表现却差强人意。Felix指出，现在很多模型评估还是处于人工评估阶段，甲骨文推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差，但未来还将持续优化评测方式并扩充评测领域。返回搜狐，查看更多

责任编辑：