ChID
收藏魔搭社区2025-11-18 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/ChID
下载链接
链接失效反馈官方服务:
资源简介:
displayName: ChID(Chinese IDiom dataset)
labelTypes:
- Chinese Corpus
license:
- Apache 2.0
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1906.01265v3.pdf
publishDate: "2019-01-01"
publishUrl: https://github.com/chujiezheng/ChID-Dataset
publisher:
- Nanyang Technological University
- Tsinghua University
- Beijing National Research Center for Information Science and Technology
tags: []
taskTypes:
- Machine Reading Comprehension
- Reading Comprehension
- Language Modelling
---
## 简介
ChID 是一个用于完形填空测试的大规模中文成语数据集。 ChID 包含 581K 段落和 729K 空白,涵盖多个领域。在 ChID 中,段落中的成语被替换为空白符号。对于每个空白,提供包括黄金成语在内的候选成语列表作为选择。
## 类定义
null
## 引文
```
@article{zheng2019chid,
title={ChID: A large-scale Chinese IDiom dataset for cloze test},
author={Zheng, Chujie and Huang, Minlie and Sun, Aixin},
journal={arXiv preprint arXiv:1906.01265},
year={2019}
}
```
## Download dataset
:modelscope-code[]{type="git"}
显示名称:ChID(中文成语数据集)
标签类型:中文语料库
许可证:Apache 2.0
媒体类型:文本
论文链接:https://arxiv.org/pdf/1906.01265v3.pdf
发布日期:2019年1月1日
发布地址:https://github.com/chujiezheng/ChID-Dataset
发布机构:南洋理工大学、清华大学、北京信息科学与技术国家研究中心
标签:无
任务类型:机器阅读理解、阅读理解、语言建模
---
## 简介
ChID是一款面向完形填空任务的大规模中文成语数据集。该数据集涵盖多领域文本,共包含58.1万个段落与72.9万个待填空位。在ChID的语料中,原段落中的成语均被替换为占位符;针对每个待填空位,数据集提供包含标准答案(黄金成语)在内的候选成语集合以供选择。
## 类定义
无
## 引文
@article{zheng2019chid,
title={ChID: A large-scale Chinese IDiom dataset for cloze test},
author={Zheng, Chujie and Huang, Minlie and Sun, Aixin},
journal={arXiv preprint arXiv:1906.01265},
year={2019}
}
## 数据集下载
可通过Git方式获取
提供机构:
maas
创建时间:
2024-07-03



