ChID Dataset

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/zhengcj1/ChID-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ChID是一个大规模的中文成语数据集，用于完形填空测试。数据集包含替换为占位符的原始成语的文本，以及正确的成语答案和候选成语列表。

ChID is a large-scale Chinese idiom dataset designed for cloze tests. The dataset comprises texts with original idioms replaced by placeholders, along with the correct idiom answers and a list of candidate idioms.

创建时间：

2019-05-30

原始信息汇总

数据集概述

数据集名称

ChID-Dataset

数据集用途

用于论文《ChID: A Large-scale Chinese IDiom Dataset for Cloze Test》研究，专注于中文填空测试。

数据集下载链接

HuggingFace

数据描述

内容：包含被替换为#idiom#的原始成语的文本段落。
realCount：文本中#idiom#占位符的数量。
groundTruth：正确答案，按占位符顺序排列。
candidates：候选答案列表，按占位符顺序排列。

数据集示例

python { "content": "世锦赛的整体水平远高于亚洲杯，要如同亚洲杯那样“鱼与熊掌兼得”，就需要各方面密切配合、#idiom#。作为主帅的俞觉敏，除了得打破保守思想，敢于破格用人，还得巧于用兵、#idiom#、灵活排阵，指挥得当，力争通过比赛推新人、出佳绩、出新的战斗力。", "realCount": 2, "groundTruth": ["通力合作", "有的放矢"], "candidates": [ ["凭空捏造", "高头大马", "通力合作", "同舟共济", "和衷共济", "蓬头垢面", "紧锣密鼓"], ["叫苦连天", "量体裁衣", "金榜题名", "百战不殆", "知彼知己", "有的放矢", "风流才子"] ] }

更新历史

Update 191001：上传了ChID的所有分割数据集。
Update 190702：上传了用于基线的wordList.txt文件。
Update 190605：提供了训练语料的下载链接。

搜集汇总

数据集介绍

构建方式

ChID数据集的构建基于大规模的中文成语填空测试，旨在通过替换文本中的成语为占位符`#idiom#`，形成具有挑战性的填空任务。数据集中的每个样本包含一段文本、占位符的数量、正确答案以及候选成语列表。通过这种方式，数据集不仅涵盖了丰富的语言表达，还为模型提供了多样的成语选择，从而提升了填空任务的难度和复杂性。

特点

ChID数据集的显著特点在于其大规模性和多样性。数据集包含了大量的中文文本，涵盖了多种语境和主题，确保了成语填空任务的广泛适用性。此外，每个样本提供的候选成语列表进一步增加了任务的复杂性，要求模型不仅理解文本的上下文，还需从多个选项中选择最合适的成语。这种设计使得数据集在语言理解和推理能力方面具有较高的挑战性。

使用方法

使用ChID数据集时，用户可以通过提供的训练集和开发集进行模型的训练和验证。数据集中的每个样本包含一段文本、占位符数量、正确答案及候选成语列表，用户可以根据这些信息设计相应的模型进行成语填空任务。此外，数据集还提供了基线代码和竞赛相关的资源，用户可以参考这些资源进行模型的开发和优化。通过HuggingFace平台，用户可以方便地下载和使用该数据集。

背景与挑战

背景概述

ChID数据集是由郑楚杰、黄民烈和孙爱欣等人于2019年创建的，旨在为中文成语填空测试提供大规模的语料库。该数据集的核心研究问题是如何在中文文本中准确识别和填充缺失的成语，从而提升自然语言处理技术在中文语境下的应用能力。ChID数据集的发布不仅为中文自然语言处理领域提供了新的研究资源，还通过组织相关竞赛，推动了该领域的技术进步和学术交流。

当前挑战

ChID数据集在构建过程中面临的主要挑战包括：首先，成语的多样性和复杂性使得数据标注和候选成语的选择变得极为复杂；其次，由于中文分词工具和设备的差异，可能导致分词结果与提供的词汇表不完全匹配，影响数据处理的一致性。此外，该数据集在竞赛中的应用也带来了新的挑战，如如何处理多段落文本中的成语填空问题，以及如何在固定长度的候选成语集中选择最合适的答案。

常用场景

经典使用场景

ChID数据集在自然语言处理领域中，主要用于中文成语填空任务。该数据集通过将文本中的成语替换为占位符‘#idiom#’，并提供候选成语列表，要求模型从中选择正确的成语进行填充。这种任务形式不仅考验模型对上下文的理解能力，还要求其具备一定的成语知识库，从而评估模型在中文语言理解和生成方面的能力。

实际应用

在实际应用中，ChID数据集可用于开发智能写作辅助工具、语言学习软件以及中文内容生成系统。例如，在智能写作辅助工具中，系统可以根据上下文自动推荐合适的成语，提升文本的表达效果。在语言学习软件中，学生可以通过填空练习掌握成语的正确使用。此外，该数据集还可用于训练生成式模型，自动生成包含丰富成语的中文文本。

衍生相关工作

基于ChID数据集，研究者们开发了多种模型和方法，如基于注意力机制的阅读理解模型和BERT等预训练语言模型。这些模型在成语填空任务中表现出色，推动了中文自然语言处理技术的进步。此外，该数据集还被用于组织相关竞赛，进一步激发了学术界和工业界对中文成语处理的研究兴趣，促进了相关技术的实际应用和推广。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集