CLOTH
收藏arXiv2018-08-28 更新2024-06-21 收录
下载链接:
http://www.cs.cmu.edu/~glai1/data/cloth/
下载链接
链接失效反馈官方服务:
资源简介:
CLOTH数据集是由卡内基梅隆大学语言技术研究所创建的大规模完形填空测试数据集,包含99,433个问题,主要用于评估中学生和高学生的语言能力。数据集中的问题由教师精心设计,旨在测试学生的词汇、推理和语法知识。每个问题包含一个上下文段落和一个问题句,通过替换特定词汇为空白并提供三个候选选项来创建。CLOTH数据集不仅适用于语言建模,还可用于机器理解研究,特别是评估模型对长篇文本的理解能力。
The CLOTH dataset is a large-scale cloze test dataset created by the Language Technologies Institute at Carnegie Mellon University, which contains 99,433 questions. It is primarily used to evaluate the language proficiency of middle and high school students. The questions in the dataset are carefully designed by teachers to test students' vocabulary, reasoning and grammatical knowledge. Each question consists of a context paragraph and a question stem, which is created by replacing specific words with blanks and providing three candidate options. The CLOTH dataset is not only applicable to language modeling, but also can be used for machine comprehension research, especially to evaluate models' ability to understand long-form texts.
提供机构:
语言技术研究所
创建时间:
2017-11-09
搜集汇总
数据集介绍

构建方式
在语言评估领域,完形填空测试被广泛用于衡量语言掌握程度。CLOTH数据集的构建过程体现了严谨的教育学设计理念:从中国中学英语考试中收集原始题目,经过多轮清洗确保数据质量。具体而言,研究团队从三个公开网站获取了20,605篇段落和332,755道题目,通过剔除格式不一致、依赖外部信息(如图表)的题目,并利用光学字符识别技术处理图像存储的答案,最终得到7,131篇高质量段落和99,433道题目。这些题目均由英语教师精心设计,每个空白处都配有三个具有细微差别的干扰选项,确保测试能全面评估词汇、语法和推理能力。
特点
该数据集的核心特征在于其人工设计的专业性与挑战性。与自动生成的完形填空数据集不同,CLOTH中的每个空白都是教师根据特定语言现象(如语法结构、词汇辨析或逻辑推理)刻意选择的,干扰选项也经过精心设计,在语法正确的前提下与正确答案形成微妙差异。这种设计使得题目难度显著提升,要求模型具备更深层次的语言理解和更广的上下文关注范围。数据统计显示,约22.4%的题目需要长期依赖推理,这为评估模型处理复杂语言现象的能力提供了理想平台。
使用方法
在自然语言处理研究中,CLOTH数据集主要服务于语言建模和机器阅读理解两大领域。研究者可将数据集按中学(CLOTH-M)和高中(CLOTH-H)部分划分,分别用于训练和评估模型的长上下文建模能力。使用时可遵循标准机器学习流程:在训练集上优化模型参数,在开发集上进行超参数调优,最终在测试集上评估性能。该数据集特别适合用于检验模型在词汇理解、语法分析和多句推理等方面的综合能力,为突破现有模型在长距离依赖处理上的瓶颈提供重要基准。
背景与挑战
背景概述
CLOTH数据集由卡内基梅隆大学语言技术研究所的谢启哲、赖国坤、戴子航与Eduard Hovy等人于2018年提出,旨在构建首个大规模人工设计的完形填空测试数据集。该数据集源自中国初高中英语考试题目,由专业教师精心设计缺失项与干扰选项,以评估语言模型在词汇、语法与推理等多维度的深层理解能力。其创建填补了自动生成数据在语言现象测试针对性上的不足,为自然语言理解研究提供了更贴近人类评估标准的高质量基准,显著推动了机器阅读理解和语言建模领域的发展。
当前挑战
CLOTH数据集核心挑战在于解决机器阅读理解中长距离依赖与深层推理的难题。自动生成的数据集往往忽略语言现象的针对性测试,导致问题过于简单或模糊;而CLOTH通过教师设计的细微干扰项,要求模型具备跨句子的信息整合与复杂推理能力。构建过程中的挑战包括数据清洗的复杂性,如处理格式不一致、依赖外部信息的题目,以及通过光学字符识别技术从图像中提取答案并确保准确性。此外,数据集中约22.4%的问题涉及长距离推理,对模型的上下文建模能力提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,CLOTH数据集作为首个大规模人工设计的完形填空测试集,常被用于评估语言模型和机器阅读理解系统的深层语言理解能力。该数据集由中学和高中教师精心编制,其题目设计旨在考察词汇、语法和逻辑推理等多维度语言现象,尤其强调对长距离上下文依赖的捕捉。研究者通常利用CLOTH测试模型在复杂语境下的填空准确性,从而衡量模型是否具备接近人类水平的语言熟练度与推理能力。
实际应用
在实际应用中,CLOTH数据集被广泛用于教育技术领域,如智能辅导系统和语言能力评估工具的研发。基于该数据集训练的模型能够辅助教师设计更有效的语言测试题目,或为学生提供个性化的完形填空练习。此外,在自动作文评分、语言学习应用及智能对话系统中,CLOTH所强调的上下文理解和推理能力也为提升系统自然语言交互的准确性与流畅性提供了关键支持。
衍生相关工作
CLOTH数据集衍生了一系列经典研究工作,特别是在长距离上下文建模和半监督学习方向。例如,研究者基于CLOTH开发了代表性加权模型,通过结合人工设计数据与自动生成数据来优化训练效率。该数据集还促进了如ELMo等上下文词向量模型的发展,这些模型利用大规模语料训练提升了对CLOTH中复杂问题的处理能力。此外,针对CLOTH的误差分析推动了注意力机制与推理导向模型的创新,为后续如RACE等考试类数据集的构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



