来自 科技 2020-10-19 01:40 的文章

blunt的反义词AI阅卷“翻车” 其实是“翻”在了自然语言处理

  开学季,美国一款号称服务两万所学校的AI阅卷系统遭到质疑,学生们只要借助系统漏洞,输入相应关键词,即使关键词之间并无关联,也能轻易获得高分。

  随着人工智能的发展,不少教育App都应用了智能评分系统,评分系统阅卷迅速,及时出分,受到不少师生的欢迎。但同时,也有不少家长吐槽智能评分系统,像英语跟读App的评分系统,有时候即使拥有英语专业八级水平的人,测试得分也只有80分。

  除了应用于英语口语的智能评分系统,人工智能还被应用于判卷上。不过这种智能阅卷系统也时有“翻车”现象。据报道,在开学季,一款号称服务于美国两万所学校的AI阅卷系统就受到了质疑,学生们借助它的漏洞,“裸考”就能轻松及格。之所以被学生们钻了空子,是由于该系统只是通过关键词进行评分,学生们只要输入相应关键词,即使几个关键词之间没有关系,也能顺利过关甚至获得高分。

  阅卷前需先设定评判标准

  “自动测评打分系统一般需要先设定评测的标准,而后根据设定的标准去设计合适的评测算法与模型。”天津大学智能与计算学部教授、博士生导师熊德意介绍,比如像口语测评打分,就需要机器去评判人的发音是否标准,所读句子的重音是否正确,读出的语句是否连贯流畅,连读部分是否准确等。

  AI阅卷系统则涉及到对语言文字的评判,涵盖很多方面,如语法、语义等,会大量运用到自然语言处理技术。

  “自然语言处理技术是人工智能的一个重要分支,研究利用计算机对自然语言进行智能化处理,基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。”熊德意强调,这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务(如机器翻译、对话、问答、文档摘要等)中,自动阅卷中的语言文字评测通常涉及这7个层级的若干层。

  设计自动评测指标的方法有多种,通常会根据不同的评判类型去选择适合的方法。“比如阅卷系统若要进行翻译题的自动评判,可以让老师事先写好多个参考译文答案,然后把学生的答案和参考答案进行类比,计算它们的相似度作为学生答案好坏的评测指标。”熊德意举例说,机器翻译常用的评测指标BLEU,就是基于参考译文和机器译文之间的N-grams(N元)匹配度计算相似度的。

  一个单词是一元,两个相连的单词是二元,还有三元、四元,如果答案中有一个单词与参考答案中的单词一致,那么就会给出一个一元评分,类似的可以计算二元、三元、四元的评分。研究人员为不同元设置不同权重,然后把得分统筹起来变成一个客观值,得分越高就说明两者之间的相似性越高。

  不同AI评分系统结果相差甚远

  此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数,而她对儿子的答案进行评测后,觉得孩子的回答基本没有问题。

  同样的答案,人工评价和机器评价为何有如此大的出入?

  “这就是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致。应对这个挑战需要解决的问题很多。比如如何制定合适的评测标准,主观题进行自动评测必须要有合适的评测标准和规范;比如如何应对语言的千变万化,语言的多样性是自然语言处理技术的主要挑战之一,语言的自动测评和自动处理都要面对多样性的挑战;比如如何设计一个综合性的评测指标,虽然目前有各种各样的指标,但是很少有指标综合考虑语言文字的方方面面,例如作文自动阅卷,可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等。”熊德意说,上面提到的BLEU就是只考虑了单词形式的严格匹配,没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素。

  “遵循的评测规则、评判的出发点不同,相应的算法模型都不一样,因此最后的结果也会相差甚远。”熊德意说。