“Duolingo的AI推动了英语水平测试”
语言学习初创企业duolingo利用ai和机器学习自动编制和判断英语水平测试,这篇论文发表在《计算语言学协会期刊》上。 其中,研究者揭开了杜林戈英语考试基础算法系列的帷幕。 duolingo英语考试为每小时49美元的家庭判断,目前已被哥伦比亚大学、麦吉尔大学、纽约大学、伦敦大学学院、威廉姆斯等000多所大学课程接受。
对想在大爆发期间聘请英语作为第二语言( esl )候选人的雇主来说,像duolingo这样的ai生成测试可能是天赐的礼物。 英语作为外语考试( toefl )之类的能力判断要求考生访问受监督的地方,在被行政命令要求关闭不必要的业务的国家是个难题。 杜林发言人也许不奇怪,但他表示,全球和中国的考试量分别增长了300%和375%,自大疫情开始后,500个新计划开始参加杜林英语考试。
如论文共同作者所述,杜林戈英语测试参考心理学的项目反应理论设计和判断了测试能力的测度。 这是许多高水平现代标准化测试的基础,我们假设测试项目,也就是对问题的回答是用离散表示考生能力和问题难度的函数建模的。 幸运的是,对duolingo来说,这个案例非常适合于估算能力和难度等变量的任务。 制作问题,和被试进行测试,生成水平(正确、错误)的配对)检查、问题),根据这些参数可以导出预测未来被试能力的参数。
通过计算机辅助测试( cat )技术,duolingo通过给高能力考生分配难题,设计更有效的语言测试,反之亦然。 迭代自适应算法注意考生在测试中对问题的反应,判断其能力。 然后,根据当前估计值的效用函数选择下一个问题,并重复此过程直到测试完成。
针对杜林哥的英语考试,杜林哥设计了100分的评分系统。 该系统支持欧洲通用的参考框架( cefr ),该国际标准描述外语学习者的阅读、写作、听力和口语能力。 此后,该企业的研究人员使用了多种测试风格,包括:
是/否,用于判断词汇广度的方法(拷贝和音频)的词汇测试不同。 其中,考生将得到文案和音频的答案。 另外,英语单词和英语系的伪单词)必须在形态和语音上合理的单词中加以区分,但没有英语)。
c-test样式通过提供某个单词损坏的考生段落,删除其他各单词的后半部分,要求填写缺少的字符来衡量阅读能力。
通过让考生抄写录音,利用听和写技能的听写测试。
挑剔他的演讲任务,要求考生大声说一句话。
为了追求能够根据难度对问题进行排名的词汇测试算法,使整体能力测试中的问题顺序与能力相匹配,duolingo获得了语言学博士学位,拥有英语教学经验,是基于cefr水平(从初学者/突破到熟练/精通)的一系列拉拉 他们把这个语料库给了ai模型进行训练。 他们报告说,这些模型最终很少见高级单词,甚至伪单词,大部分都有greco-latin语源,基本单词很常见,大部分来源于盎格鲁撒克逊语。
对于c考试,duolingo利用从在线资源收集的一系列语料库,创建英语自学网站、英语水平考试的考试准备资源、为simple english重写的english wikipedia副本、众包 所讨论的模型首先通过带标签的拷贝进行训练,然后通过具有类似语言特性的无标签拷贝进行训练,不仅可以预测所给c测试的难度,还可以预测听写和引用测试的难度。
事实上,根据duolingo的报告,训练有素的模型将困难段落准确地安排在更简单段落的85%的位置,同时其预测与4人专家小组的预测相似。 研究人员利用这些预测根据语料库中的段落和专家编制的400多个段落自动生成c检验项目。
最终,为了自动向duolingo的英语水平的考生提供所有的问题,需要编写cat管理算法。 与25,000多个测试项目相比,该算法经过培训,可以更智能地循环风格。 例如,由是/否的词汇拷贝、音频、c-test、听写和引发。 如果随机选择前四个问题,算法会估算测试分数,选择下一个问题的难度进行适当的采样,然后重复这个过程直到测试超过25个项目(或40分钟)。
在实际测试场景中,人工辅导员在每天收集的数百万据点训练的ai的帮助下,在多个回合中检查各测试会话的约75种行为,以检测违反规则的情况。 除此之外,在测试过程中,计算机视觉算法(通过网络摄像机)验证考生的身份,并在尝试访问外部应用程序和插件时自动取消测试。
该论文共同作者在年开展的21,000个考试中,有500,000多名考生-试题对的解体显示,duolingo英语考试的排名与之前流传的人类飞行员考试提供的排名基本相同。 此外,该测试与英语判断(如托福和国际英语测试系统( ielts ) )相关性很高,同时在可靠性(测试的一致性和稳定性)和测试的安全性方面符合领域标准。 ( duolingo发现,考生平均参加约1,000次测试后,可以再次看到相同的测试项目。 )
在未来的工作中,duolingo研究人员将调查能力相同但性别和年龄等不同亚组的人在测试问题上成功的不平等概率的程度。 他还想研究是否能将故事性和单词具体性等其他指标纳入duolingo英语水平模型中,以预测文案的难度和理解能力。
因此,最近发布的测试版本包括更细腻的口语和写作练习,测试分数的可信度更高。
英语是在duolingo学习的最受欢迎的语言,许多学习者还询问是否可以正式认定他们的英语技能以获得高等教育和更好的工作机会。 duolingo机器学习科学家burr settles和判断科学家geoffrey laflair在今天发表的博客副本中。 duolingo是一家以使命为导向的企业,为了消除高等教育的障碍,制作了duolingo英语考试。 结果表明,在线个性化测试方法对增加访问次数非常重要。 这是不可缺少的创新,我们正在重新构建我们已知的教育体系,我们很高兴能够引领这一潮流。
duolingo在支持ai的英语测试方面的投资与语言学习平台核心的ai改进相一致,目的是通过自动比较每个语言学习者并根据需求定制课程,从而使课程更具吸引力。 统计模型和机器学习模型(半衰期回归等)分解数百万顾客的错误模式,预测体长时间记忆中各个单词的半衰期,帮助幕后文案根据需要定制初学者、中级者、高级材料。 settles在去年7月的采访中告诉了venturebeat。
英语中有数百万个单词,可能有10,000个高频单词。 按什么顺序教? 怎么把它们连接起来? 他说。 我们ai战术的核心部分是尽量接近人与人的体验。
免责声明:学习富国网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的工作人员将予以删除。