cluener
收藏魔搭社区2026-05-11 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/yingxi/cluener
下载链接
链接失效反馈官方服务:
资源简介:
# cluener命名实体识别数据集
## 数据集概述
cluener数据集是中文的ner的一个benchmark
### 数据集简介
本数据集实体类型包括地址(address),
书名(book),
公司(company),
游戏(game),
政府(goverment),
电影(movie),
姓名(name),
组织机构(organization),
职位(position),
景点(scene)
### 数据集的格式和结构
数据格式采用cluener标准,数据为一个字典结构,一个case如下
```json
{"text": "彭小军认为,国内银行现在走的是台湾的发卡模式,先通过跑马圈地再在圈的地里面选择客户,", "label": {"address": {"台湾": [[15, 16]]}, "name": {"彭小军": [[0, 2]]}}}
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```
@article{xu2020cluener2020,
title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese},
author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei},
journal={arXiv preprint arXiv:2001.04351},
year={2020}
}
```
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
当前数据集卡片使用的是默认模版,数据集的贡献者未提供更加详细的数据集介绍,但是您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
# CLUENER命名实体识别数据集
## 数据集概述
CLUENER数据集是中文命名实体识别(Named Entity Recognition,NER)领域的基准测试数据集。
### 数据集简介
本数据集涵盖的实体类型包括:地址(address)、书名(book)、公司(company)、游戏(game)、政府(goverment)、电影(movie)、姓名(name)、组织机构(organization)、职位(position)以及景点(scene)。
### 数据集的格式和结构
本数据集采用CLUENER标准格式进行组织,数据以字典结构存储,示例如下:
json
{"text": "彭小军认为,国内银行现在走的是台湾的发卡模式,先通过跑马圈地再在圈的地里面选择客户,", "label": {"address": {"台湾": [[15, 16]]}, "name": {"彭小军": [[0, 2]]}}}
## 数据集版权信息
本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)进行授权。
## 引用方式
@article{xu2020cluener2020,
title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese},
author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei},
journal={arXiv preprint arXiv:2001.04351},
year={2020}
}
数据集文件元信息与数据文件可通过「数据集文件」页面获取。本数据集卡片采用默认模板制作,数据集贡献者未提供更详细的介绍,您可通过以下Git Clone命令或ModelScope SDK下载该数据集。
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2023-01-06
搜集汇总
数据集介绍

背景与挑战
背景概述
cluener是一个中文细粒度命名实体识别基准数据集,包含10种实体类型(如地址、书名、公司等),数据采用字典格式存储。该数据集适用于中文NER任务研究,采用Creative Commons Attribution 4.0 International许可。
以上内容由遇见数据集搜集并总结生成



