AndyChiang/cloth

Name: AndyChiang/cloth
Creator: AndyChiang
Published: 2022-10-14 14:10:37
License: 暂无描述

Hugging Face2022-10-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AndyChiang/cloth

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: cloth multilinguality: - monolingual language: - en license: - mit size_categories: - 10K<n<100K tags: - cloze - mid-school - high-school - exams task_categories: - fill-mask --- # cloth **CLOTH** is a dataset which is a collection of nearly 100,000 cloze questions from middle school and high school English exams. The detail of CLOTH dataset is shown below. | Number of questions | Train | Valid | Test | | ------------------- | ----- | ----- | ----- | | **Middle school** | 22056 | 3273 | 3198 | | **High school** | 54794 | 7794 | 8318 | | **Total** | 76850 | 11067 | 11516 | Source: https://www.cs.cmu.edu/~glai1/data/cloth/

--- 数据集名称: CLOTH 多语言属性: - 单语言语言: - 英语许可协议: - MIT 样本规模类别: - 10K<n<100K 标签: - 完形填空（cloze） - 中学 - 高中 - 考试任务类别: - 掩码填充（fill-mask） --- # CLOTH **CLOTH** 是一个收录了近10万道来自中学与高中英语考试的完形填空（cloze）试题的数据集。CLOTH数据集的详细信息如下表所示： | 试题类别 | 训练集 | 验证集 | 测试集 | | ------- | ------ | ------ | ------ | | **初中试题** | 22056 | 3273 | 3198 | | **高中试题** | 54794 | 7794 | 8318 | | **总计** | 76850 | 11067 | 11516 | 数据集来源: https://www.cs.cmu.edu/~glai1/data/cloth/

提供机构：

AndyChiang

原始信息汇总

数据集概述

基本信息

名称: CLOTH
语言: 英语（en）
许可证: MIT
大小: 10,000 < n < 100,000

描述

CLOTH是一个包含近100,000个完形填空问题的数据集，这些问题来源于中学和高中的英语考试。

数据分布

学校级别	训练集	验证集	测试集
中学	22,056	3,273	3,198
高中	54,794	7,794	8,318
总计	76,850	11,067	11,516

标签和任务

标签: cloze, mid-school, high-school, exams
任务类别: fill-mask

搜集汇总

数据集介绍

构建方式

在英语教育评估领域，CLOTH数据集的构建体现了对学术资源的深度整合。该数据集从美国中学与高中的标准化英语考试中，系统性地收集了近十万道完形填空题目。这些题目经过精心筛选与分类，涵盖了不同教育阶段的评估内容，确保了题目的多样性与代表性。构建过程中，原始考试材料被转化为结构化的完形填空格式，每道题目均保留了原文的上下文语境与选项设置，从而为语言模型训练提供了高质量的监督数据。

使用方法

使用CLOTH数据集时，研究者可将其应用于填空掩码任务的模型训练与评估。典型流程包括加载数据分割，利用上下文文本预测被掩码的单词或短语，并通过准确率等指标衡量模型性能。数据集支持对中学与高中层级题目的分别分析，有助于探究模型在不同难度与知识范围下的表现差异。此外，其标准化的数据格式便于集成到主流自然语言处理框架中，为教育技术领域的模型开发提供可靠基准。

背景与挑战

背景概述

在自然语言处理领域，完形填空任务作为评估语言理解能力的重要手段，长期受到研究者的关注。CLOTH数据集由卡内基梅隆大学的研究团队于2017年创建，旨在通过收集来自中学与高中英语考试的近十万道完形填空题目，为机器阅读理解模型提供高质量的评估基准。该数据集的核心研究问题聚焦于考察模型对上下文语义的深层推理能力，而非简单的词汇匹配，从而推动了阅读理解技术向更精细化的语义分析方向发展，对教育评估与智能辅导系统的研究产生了显著影响。

当前挑战

CLOTH数据集所解决的领域问题在于提升机器对复杂语境下语义空缺的填充能力，其挑战体现在题目往往需要结合语法结构、逻辑连贯性及背景知识进行综合推断，而非依赖表面词汇线索。在构建过程中，研究人员面临的主要挑战包括从非结构化考试材料中自动化提取并标准化大量题目，同时确保数据覆盖不同难度层级与知识领域，以维持数据集的多样性与平衡性，避免因来源偏差导致评估结果失真。

常用场景

经典使用场景

在自然语言处理领域，CLOTH数据集作为一项经典的完形填空任务资源，广泛应用于语言模型的评估与训练。该数据集源自中学英语考试，包含近十万道题目，覆盖了从初中到高中的语言理解层次。研究者通常利用这些题目来测试模型在上下文语境中预测缺失词汇的能力，从而衡量模型对语法结构、语义连贯性和常识推理的掌握程度。这种使用方式不仅推动了机器阅读理解技术的发展，还为教育评估工具的智能化提供了数据基础。

解决学术问题

CLOTH数据集有效解决了自然语言处理中关于语言理解深度与广度的学术挑战。它通过提供大规模、高质量的完形填空题目，帮助研究者探索模型在复杂语境下的词汇预测与推理能力。该数据集的意义在于填补了教育领域数据在NLP研究中的空白，促进了语言模型在语义理解和常识推理方面的进步。其影响延伸至机器翻译、文本生成等多个子领域，为构建更智能、更人性化的语言系统奠定了实证基础。

实际应用

在实际应用中，CLOTH数据集被广泛用于智能教育系统的开发。例如，在线学习平台可以基于该数据集构建自适应测试系统，自动评估学生的英语水平并提供个性化练习。此外，语言辅导工具利用这些题目来生成模拟考试，帮助学习者提升阅读理解与词汇运用能力。在商业领域，该数据集还支持智能客服和内容推荐系统的优化，通过增强语言模型的语境理解，改善人机交互的自然性与准确性。

数据集最近研究