CFET 中文超细粒度实体分类
收藏魔搭社区2026-05-19 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/cfet
下载链接
链接失效反馈官方服务:
资源简介:
# cfet Entity Typing 数据
## 数据集概述
cfet 数据集是从论文 [A Chinese Corpus for Fine-grained Entity Typing](https://aclanthology.org/2020.lrec-1.548/) 所发布的数据集处理得到的。
### 数据集简介
包含通过众包人工标注的 4,800 个提及词。每个提及词都使用自由形式的实体类型进行注释。作者为了使的数据集在更多可能的场景中有用,还将所有细粒度类型分为 10 个通用类型。
### 数据集的格式和结构
数据格式采用jsonline格,每行文本可解析为json对象,一个具体case的例子如下:
```
{
"text":"威武南京零距离最牛毕业证威武",
"label":[
{
"start":2,
"end":4,
"type":[
"地点",
"地方",
"城市",
"市"
]
}
]
}
```
## 数据集版权信息
CC BY-NC-SA 4.0
## 引用方式
```bib
@inproceedings{lee-etal-2020-chinese,
title = "A {C}hinese Corpus for Fine-grained Entity Typing",
author = "Lee, Chin and
Dai, Hongliang and
Song, Yangqiu and
Li, Xin",
booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference",
month = may,
year = "2020",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2020.lrec-1.548",
pages = "4451--4457",
language = "English",
ISBN = "979-10-95546-34-4",
}
```
# cfet实体分型(Entity Typing)数据集
## 数据集概述
cfet数据集源自论文《A Chinese Corpus for Fine-grained Entity Typing》(链接:https://aclanthology.org/2020.lrec-1.548/)发布的公开数据集,经二次处理后得到。
### 数据集简介
本数据集包含经众包人工标注的4800个实体提及词,每个提及词均采用自由形式的实体类型进行标注。为拓展数据集的应用场景,提升其通用性,作者将所有细粒度实体类型划分为10个通用类型。
### 数据集的格式与结构
数据采用JSON Lines(jsonline)格式存储,每一行文本均可解析为JSON对象,具体示例如下:
{
"text":"威武南京零距离最牛毕业证威武",
"label":[
{
"start":2,
"end":4,
"type":[
"地点",
"地方",
"城市",
"市"
]
}
]
}
## 数据集版权信息
CC BY-NC-SA 4.0
## 引用规范
bib
@inproceedings{lee-etal-2020-chinese,
title = "A {C}hinese Corpus for Fine-grained Entity Typing",
author = "Lee, Chin and
Dai, Hongliang and
Song, Yangqiu and
Li, Xin",
booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference",
month = may,
year = "2020",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2020.lrec-1.548",
pages = "4451--4457",
language = "English",
ISBN = "979-10-95546-34-4",
}
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍

背景与挑战
背景概述
CFET数据集源自一篇关于中文细粒度实体分类的论文,包含4,800个众包标注的提及,每个提及都标注了自由形式的实体类型,并将这些类型归类为10个通用类别。数据以jsonline格式存储,遵循CC BY-NC-SA 4.0许可协议。
以上内容由遇见数据集搜集并总结生成



