ChID(Chinese IDiom dataset)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ChID
下载链接
链接失效反馈官方服务:
资源简介:
ChID 是一个用于完形填空测试的大规模中文成语数据集。 ChID 包含 581K 段落和 729K 空白,涵盖多个领域。在 ChID 中,段落中的成语被替换为空白符号。对于每个空白,提供包括黄金成语在内的候选成语列表作为选择。
ChID is a large-scale Chinese idiom dataset designed for cloze tests. It contains 581K passages and 729K blanks, covering multiple domains. In ChID, idioms within the passages are replaced with blank symbols. For each blank, a list of candidate idioms including the ground-truth idiom is provided as selection options.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

背景与挑战
背景概述
ChID是一个大规模中文成语完形填空数据集,包含58.1万个段落和72.9万个空白,涵盖多个领域。该数据集通过将段落中的成语替换为空白,并为每个空白提供候选成语列表,用于测试和评估。
以上内容由遇见数据集搜集并总结生成



