AI大模型参加高考测试，文科状元阿里通义千问，理科状元商汤浦语文曲星

快科技

释放双眼，带上耳机，听听看~！

上海人工智能实验室旗下司南评测体系OpenCompass对7个AI大模型进行了高考9个科目的全科目测试，评选出文科状元阿里通义千问和理科状元商汤浦语文曲星。AI在文科科目表现优秀，但在理科科目中存在挑战。阅卷老师指出大模型在逻辑推理和知识灵活应用方面仍有提升空间。

快科技7月18日消息，日前由上海人工智能实验室旗下司南评测体系OpenCompass，对7个AI大模型进行了高考9个科目的全科目测试，从而能全面评测大模型实力。

此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型，以及OpenAI的闭源模型GPT-4o。

AI大模型参加高考测试，文科状元阿里通义千问，理科状元商汤浦语文曲星

以参加高考人数最多的河南省分数线作为参考，文科成绩最好的AI模型能够达到一本线，而理科成绩最好的模型则只能上二本。

AI大模型参加高考测试，文科状元阿里通义千问，理科状元商汤浦语文曲星

文科状元由阿里通义千问大模型以546分的成绩夺得，而理科状元则是上海人工智能实验室商汤联合研发的浦语文曲星，得分为468.5分。

OpenAI的GPT-4o在文科上得分531分，排名第三，理科得分为467分，排名第二。

在评测中，AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力，但在理科科目中，数理推理能力普遍存在短板。

特别是在面对带图题目时，得分率仅有37.64%，显示出在图片理解和运用能力方面，所有大模型均存在较大提升空间。

阅卷老师指出，尽管大模型在基础知识掌握上表现出色，但在逻辑推理和知识灵活应用方面仍有较大差距。

例如在作答主观题时，大模型常常无法完整理解题干，导致答非所问；在解答数学题时，解题过程机械且逻辑性差。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证