(资料图片仅供参考)
本文系网易沸点工作室《硬核看板》栏目(公众号:yinghekb)出品。
还记得前不久被AI高考作文刷爆的热搜吗?
有人觉得AI的写作水平已经超越了大多数人,也有人说AI上场只能考0分
高考成绩开始放榜,我们也查到了AI的分数......
本次出征的两位AI选手,是来自微软的Chat GPT-4和来自百度的文心一言。
它们分别作答了全国甲卷的作文题之后,三位来自不同地区的教学一线的老师模拟高考阅卷进行了打分。
从作答速度上看,文心一言更胜一筹,29秒写了1103个字;而Chat GPT-4,1分42秒只写了846个字。
从行文上看,文心一言的作文全文引用了大量名言,举了不少例子,并给出了三个“让时光为我所用”的方法;
Chat GPT-4先是肯定了技术带来的便利生活,又说了技术如何让人变成了奴隶,最后提出要有选择地使用技术,理智地安排时间。满分60分,老师们给Chat GPT打出的平均分是36分。|可以说是一篇不太令人满意的文章,这篇文章它过于凸显出了一种思维定式上的缺陷;|虽然比较切题,但整篇文章缺乏一个有效可信的论据;|用过多的无效的篇幅去对材料本身的现象进行扩写,而没有在创造。大多的都是正确的废话,真正的建设性的、操作性的、能够打到痛点上的太少。再看文心一言的这篇,平均得分42分,阅卷老师们是这样说的:|它是最有文采、论据也最为详实的一篇,但是我们要知道,引用过多其实也不是特别好;|虽然里面用了大量的这些引用、诗句,还有好多例子,其中还有很多是确实很多考生喜欢用的例子,例如像我在故宫修文物这种;|例子举得很好,但它没有说清楚、阐释出人和时间的关系;|明显是想到哪儿写到哪儿,逻辑性不强、分数不会高,因为他的结构过于陈旧,整篇文章基本是论据导向在往前推进,而不是逻辑导向。根据高考阅卷标准,一篇优秀的高考作文(一类文),得分一般在50分及以上。虽然三位来自不同地区的老师,在打分上可能会存在整体偏高或偏低的变量,但综合下来的平均结果依然显示:|文章按照算法去完成,会将我们之前高考作文当中的很多积重难返的弊病,一脉继承下来,很多大家看着好像还不错的文章,都已经慢慢的不再符合我们高考现在的需要了。除了两篇AI作文之外,一篇出自真人之手的作文也被交给到了阅卷老师手中,看看老师们能不能看出区别。真人作文的开篇论点是“如果一味依赖于科技,成为时间的奴隶,那么科技的发展就毫无意义”;整体上写了不能沉溺于科技坐享其成、不能逆科技发展之势一味抵制,要用“中庸”的思想借助科技,学会自控。老师们在不知道这是真人作文的情况下,打出了43分的平均分,险胜AI,理由是:|是我唯一能够看得进去的一篇,但是这篇文章的问题在于放错了重点啊,他的整个对于题目本身的审题的理解有点偏了,所以它是其实是带有一个偏题的分儿的。|君子善假于物,仅仅只是讲人要善于学习、要善于借助外物学习;|整个文章的结构,他在提出问题、分析问题的过程中更加关注了人和科技这样一组关系,弱化了时间要素;而在“分辨真人作文”这个环节里,Chat GPT-4作文里显著的英译中痕迹暴露了它的真实身份,首先被老师们排除在外。文心一言的作品就比较具有迷惑性,三位老师都纠结过这篇到底是不是出自真人。原因是他们在教学中也遇到过很多想通过引经据典、堆砌辞藻来拿高分的学生。发散思维更强的人类,深入思考时也难免落入“想太多”的陷阱。而高考作为人才选拔的一个重要环节,其标准也在不断演化,比起辞藻华丽的套路写作,突破思维定式的创新思考才更胜一筹。搜索关注硬核看板微信公众号(ID:yinghekb),让硬核的知识先发声。