five

CFET 中文超细粒度实体分类

收藏
魔搭社区2026-05-19 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/cfet
下载链接
链接失效反馈
官方服务:
资源简介:
# cfet Entity Typing 数据 ## 数据集概述 cfet 数据集是从论文 [A Chinese Corpus for Fine-grained Entity Typing](https://aclanthology.org/2020.lrec-1.548/) 所发布的数据集处理得到的。 ### 数据集简介 包含通过众包人工标注的 4,800 个提及词。每个提及词都使用自由形式的实体类型进行注释。作者为了使的数据集在更多可能的场景中有用,还将所有细粒度类型分为 10 个通用类型。 ### 数据集的格式和结构 数据格式采用jsonline格,每行文本可解析为json对象,一个具体case的例子如下: ``` { "text":"威武南京零距离最牛毕业证威武", "label":[ { "start":2, "end":4, "type":[ "地点", "地方", "城市", "市" ] } ] } ``` ## 数据集版权信息 CC BY-NC-SA 4.0 ## 引用方式 ```bib @inproceedings{lee-etal-2020-chinese, title = "A {C}hinese Corpus for Fine-grained Entity Typing", author = "Lee, Chin and Dai, Hongliang and Song, Yangqiu and Li, Xin", booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.548", pages = "4451--4457", language = "English", ISBN = "979-10-95546-34-4", } ```

# cfet实体分型(Entity Typing)数据集 ## 数据集概述 cfet数据集源自论文《A Chinese Corpus for Fine-grained Entity Typing》(链接:https://aclanthology.org/2020.lrec-1.548/)发布的公开数据集,经二次处理后得到。 ### 数据集简介 本数据集包含经众包人工标注的4800个实体提及词,每个提及词均采用自由形式的实体类型进行标注。为拓展数据集的应用场景,提升其通用性,作者将所有细粒度实体类型划分为10个通用类型。 ### 数据集的格式与结构 数据采用JSON Lines(jsonline)格式存储,每一行文本均可解析为JSON对象,具体示例如下: { "text":"威武南京零距离最牛毕业证威武", "label":[ { "start":2, "end":4, "type":[ "地点", "地方", "城市", "市" ] } ] } ## 数据集版权信息 CC BY-NC-SA 4.0 ## 引用规范 bib @inproceedings{lee-etal-2020-chinese, title = "A {C}hinese Corpus for Fine-grained Entity Typing", author = "Lee, Chin and Dai, Hongliang and Song, Yangqiu and Li, Xin", booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.548", pages = "4451--4457", language = "English", ISBN = "979-10-95546-34-4", }
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CFET数据集源自一篇关于中文细粒度实体分类的论文,包含4,800个众包标注的提及,每个提及都标注了自由形式的实体类型,并将这些类型归类为10个通用类别。数据以jsonline格式存储,遵循CC BY-NC-SA 4.0许可协议。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务