ChID 大规模中文成语数据集
收藏超神经2024-07-17 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/32945
下载链接
链接失效反馈官方服务:
资源简介:
由于缺乏丰富的语料库,中文完形填空式阅读理解的研究仍然受到限制。 ChID(全称 Chinese IDiom Dataset)是大规模中文完形填空测试数据集,用于研究中文中特有的语言现象——成语的理解。在这个语料库中,文章中的成语被空白符号代替,正确答案需要从精心设计的候选成语中选出。
Research on Chinese cloze-style reading comprehension has long been constrained by the scarcity of high-quality corpora. ChID, short for Chinese Idiom Dataset, is a large-scale Chinese cloze test dataset dedicated to studying the unique linguistic phenomenon in Chinese: the comprehension of idioms. In this corpus, idioms contained in the articles are replaced with blank symbols, and the correct answer must be selected from a set of meticulously designed candidate idioms.
创建时间:
2024-07-16
搜集汇总
数据集介绍

背景与挑战
背景概述
ChID是一个大规模中文成语数据集,专为研究中文成语理解而设计,采用完形填空测试形式。该数据集包含58.1万段落和72.9万空白,覆盖多个领域,每个空白处提供包含正确答案的候选成语列表供选择。
以上内容由遇见数据集搜集并总结生成



