AI 参加高考能得几分？看看 ChatGPT 4 和文心一言两位考生的成绩

羊城晚报

原文来源：硬核看板

图片来源：由无界 AI?生成

还记得前不久被AI高考作文刷爆的热搜吗？

有人觉得AI的写作水平已经超越了大多数人，也有人说AI上场只能考0分

高考成绩开始放榜，我们也查到了AI的分数......

本次出征的两位AI选手，是来自微软的ChatGPT-4和来自百度的文心一言。

它们分别作答了全国甲卷的作文题之后，三位来自不同地区的教学一线的老师模拟高考阅卷进行了打分。

从作答速度上看，文心一言更胜一筹，29秒写了1103个字；而Chat GPT-4，1分42秒只写了846个字。

从行文上看，文心一言的作文全文引用了大量名言，举了不少例子，并给出了三个“让时光为我所用”的方法；

Chat GPT-4先是肯定了技术带来的便利生活，又说了技术如何让人变成了奴隶，最后提出要有选择地使用技术，理智地安排时间。

你觉得哪个得分会更高呢？

满分60分，老师们给Chat GPT打出的平均分是36分。

| 可以说是一篇不太令人满意的文章，这篇文章它过于凸显出了一种思维定式上的缺陷；

| 虽然比较切题，但整篇文章缺乏一个有效可信的论据；

| 用过多的无效的篇幅去对材料本身的现象进行扩写，而没有在创造。大多的都是正确的废话，真正的建设性的、操作性的、能够打到痛点上的太少。

再看文心一言的这篇，平均得分42分，阅卷老师们是这样说的：

| 它是最有文采、论据也最为详实的一篇，但是我们要知道，引用过多其实也不是特别好；

| 虽然里面用了大量的这些引用、诗句，还有好多例子，其中还有很多是确实很多考生喜欢用的例子，例如像我在故宫修文物这种；

| 例子举得很好，但它没有说清楚、阐释出人和时间的关系；

| 明显是想到哪儿写到哪儿，逻辑性不强、分数不会高，因为他的结构过于陈旧，整篇文章基本是论据导向在往前推进，而不是逻辑导向。

根据高考阅卷标准，一篇优秀的高考作文（一类文），得分一般在50分及以上。

虽然三位来自不同地区的老师，在打分上可能会存在整体偏高或偏低的变量，但综合下来的平均结果依然显示：

两位写作速度飞快的AI考生，只能算是中等水平。

文章按照算法去完成，会将我们之前高考作文当中的很多积重难返的弊病，一脉继承下来，很多大家看着好像还不错的文章，都已经慢慢的不再符合我们高考现在的需要了。

借这个机会，我们也悄悄进行了一次“图灵测试”。

除了两篇AI作文之外，一篇出自真人之手的作文也被交给到了阅卷老师手中，看看老师们能不能看出区别。

真人作文的开篇论点是“如果一味依赖于科技，成为时间的奴隶，那么科技的发展就毫无意义”；

整体上写了不能沉溺于科技坐享其成、不能逆科技发展之势一味抵制，要用“中庸”的思想借助科技，学会自控。

老师们在不知道这是真人作文的情况下，打出了43分的平均分，险胜AI，理由是：

是我唯一能够看得进去的一篇，但是这篇文章的问题在于放错了重点啊，他的整个对于题目本身的审题的理解有点偏了，所以它是其实是带有一个偏题的分儿的。君子善假于物，仅仅只是讲人要善于学习、要善于借助外物学习；整个文章的结构，他在提出问题、分析问题的过程中更加关注了人和科技这样一组关系，弱化了时间要素；真正的可操作的论点，提出太过滞后了。

而在“分辨真人作文”这个环节里，Chat GPT-4作文里显著的英译中痕迹暴露了它的真实身份，首先被老师们排除在外。

文心一言的作品就比较具有迷惑性，三位老师都纠结过这篇到底是不是出自真人。原因是他们在教学中也遇到过很多想通过引经据典、堆砌辞藻来拿高分的学生。

经此一役，想必大家都看出来了——紧扣题意写作的AI很难出彩；发散思维更强的人类，深入思考时也难免落入“想太多”的陷阱。目前的AI，依旧只是为人类思维锦上添花的东西；而高考作为人才选拔的一个重要环节，其标准也在不断演化，比起辞藻华丽的套路写作，突破思维定式的创新思考才更胜一筹。返回搜狐，查看更多

责任编辑：