five

cluener

收藏
魔搭社区2026-05-11 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/yingxi/cluener
下载链接
链接失效反馈
官方服务:
资源简介:
# cluener命名实体识别数据集 ## 数据集概述 cluener数据集是中文的ner的一个benchmark ### 数据集简介 本数据集实体类型包括地址(address), 书名(book), 公司(company), 游戏(game), 政府(goverment), 电影(movie), 姓名(name), 组织机构(organization), 职位(position), 景点(scene) ### 数据集的格式和结构 数据格式采用cluener标准,数据为一个字典结构,一个case如下 ```json {"text": "彭小军认为,国内银行现在走的是台湾的发卡模式,先通过跑马圈地再在圈的地里面选择客户,", "label": {"address": {"台湾": [[15, 16]]}, "name": {"彭小军": [[0, 2]]}}} ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ``` @article{xu2020cluener2020, title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese}, author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei}, journal={arXiv preprint arXiv:2001.04351}, year={2020} } ``` 数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。 当前数据集卡片使用的是默认模版,数据集的贡献者未提供更加详细的数据集介绍,但是您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

# CLUENER命名实体识别数据集 ## 数据集概述 CLUENER数据集是中文命名实体识别(Named Entity Recognition,NER)领域的基准测试数据集。 ### 数据集简介 本数据集涵盖的实体类型包括:地址(address)、书名(book)、公司(company)、游戏(game)、政府(goverment)、电影(movie)、姓名(name)、组织机构(organization)、职位(position)以及景点(scene)。 ### 数据集的格式和结构 本数据集采用CLUENER标准格式进行组织,数据以字典结构存储,示例如下: json {"text": "彭小军认为,国内银行现在走的是台湾的发卡模式,先通过跑马圈地再在圈的地里面选择客户,", "label": {"address": {"台湾": [[15, 16]]}, "name": {"彭小军": [[0, 2]]}}} ## 数据集版权信息 本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)进行授权。 ## 引用方式 @article{xu2020cluener2020, title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese}, author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei}, journal={arXiv preprint arXiv:2001.04351}, year={2020} } 数据集文件元信息与数据文件可通过「数据集文件」页面获取。本数据集卡片采用默认模板制作,数据集贡献者未提供更详细的介绍,您可通过以下Git Clone命令或ModelScope SDK下载该数据集。 #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2023-01-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
cluener是一个中文细粒度命名实体识别基准数据集,包含10种实体类型(如地址、书名、公司等),数据采用字典格式存储。该数据集适用于中文NER任务研究,采用Creative Commons Attribution 4.0 International许可。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作