five

ChID

收藏
魔搭社区2025-11-18 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/ChID
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: ChID(Chinese IDiom dataset) labelTypes: - Chinese Corpus license: - Apache 2.0 mediaTypes: - Text paperUrl: https://arxiv.org/pdf/1906.01265v3.pdf publishDate: "2019-01-01" publishUrl: https://github.com/chujiezheng/ChID-Dataset publisher: - Nanyang Technological University - Tsinghua University - Beijing National Research Center for Information Science and Technology tags: [] taskTypes: - Machine Reading Comprehension - Reading Comprehension - Language Modelling --- ## 简介 ChID 是一个用于完形填空测试的大规模中文成语数据集。 ChID 包含 581K 段落和 729K 空白,涵盖多个领域。在 ChID 中,段落中的成语被替换为空白符号。对于每个空白,提供包括黄金成语在内的候选成语列表作为选择。 ## 类定义 null ## 引文 ``` @article{zheng2019chid, title={ChID: A large-scale Chinese IDiom dataset for cloze test}, author={Zheng, Chujie and Huang, Minlie and Sun, Aixin}, journal={arXiv preprint arXiv:1906.01265}, year={2019} } ``` ## Download dataset :modelscope-code[]{type="git"}

显示名称:ChID(中文成语数据集) 标签类型:中文语料库 许可证:Apache 2.0 媒体类型:文本 论文链接:https://arxiv.org/pdf/1906.01265v3.pdf 发布日期:2019年1月1日 发布地址:https://github.com/chujiezheng/ChID-Dataset 发布机构:南洋理工大学、清华大学、北京信息科学与技术国家研究中心 标签:无 任务类型:机器阅读理解、阅读理解、语言建模 --- ## 简介 ChID是一款面向完形填空任务的大规模中文成语数据集。该数据集涵盖多领域文本,共包含58.1万个段落与72.9万个待填空位。在ChID的语料中,原段落中的成语均被替换为占位符;针对每个待填空位,数据集提供包含标准答案(黄金成语)在内的候选成语集合以供选择。 ## 类定义 无 ## 引文 @article{zheng2019chid, title={ChID: A large-scale Chinese IDiom dataset for cloze test}, author={Zheng, Chujie and Huang, Minlie and Sun, Aixin}, journal={arXiv preprint arXiv:1906.01265}, year={2019} } ## 数据集下载 可通过Git方式获取
提供机构:
maas
创建时间:
2024-07-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作