cluener2020

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/RICAR03/cluener2020

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于命名实体识别的数据集，包含文本序列和对应的实体标签。实体标签包括地址、书籍、公司、游戏、政府、电影、人名、组织、职位和场景等类别。数据集分为训练集，共有10748个示例。

This is a dataset for named entity recognition (NER), which contains text sequences and their corresponding entity labels. The entity labels cover categories such as address, book, company, game, government, film, personal name, organization, position and scenario. The dataset is divided into a training set with a total of 10748 samples.

创建时间：

2025-05-24

原始信息汇总

数据集概述

基本信息

数据集名称: cluener2020
存储位置: https://huggingface.co/datasets/RICAR03/cluener2020
下载大小: 930714字节
数据集大小: 6127365字节

数据集结构

特征:
- id: 字符串类型，唯一标识符
- tokens: 字符串序列，表示文本分词后的结果
- ner_tags: 序列类型，包含命名实体识别标签，具体类别如下：
  - 0: O（非实体）
  - 1: B-address（地址，开始）
  - 2: B-book（书籍，开始）
  - 3: B-company（公司，开始）
  - 4: B-game（游戏，开始）
  - 5: B-government（政府机构，开始）
  - 6: B-movie（电影，开始）
  - 7: B-name（人名，开始）
  - 8: B-organization（组织，开始）
  - 9: B-position（职位，开始）
  - 10: B-scene（场景，开始）
  - 11: I-address（地址，内部）
  - 12: I-book（书籍，内部）
  - 13: I-company（公司，内部）
  - 14: I-game（游戏，内部）
  - 15: I-government（政府机构，内部）
  - 16: I-movie（电影，内部）
  - 17: I-name（人名，内部）
  - 18: I-organization（组织，内部）
  - 19: I-position（职位，内部）
  - 20: I-scene（场景，内部）

数据划分

训练集:
- 样本数量: 10748
- 文件路径: data/train-*

配置信息

默认配置:
- 数据文件: 仅包含训练集

搜集汇总

数据集介绍

构建方式

cluener2020数据集作为中文命名实体识别领域的重要资源，其构建过程充分考虑了实际应用场景的多样性。该数据集基于人工标注的文本语料构建，标注者采用BIO标注体系对10类实体进行细粒度标注，包括地址、书籍、公司等常见实体类型。通过严格的标注质量控制流程，确保了标注结果的一致性和准确性，最终形成包含10748条训练样本的高质量数据集。

使用方法

使用cluener2020数据集时，研究人员可通过HuggingFace平台直接加载预处理好的数据格式。数据集已划分为训练集，可直接用于命名实体识别模型的训练和验证。典型的应用流程包括数据加载、预处理、模型训练和评估四个阶段。在预处理阶段，需要注意处理标签与文本的对齐问题，建议使用兼容BIOES标注体系的专用处理工具。

背景与挑战

背景概述

Cluener2020数据集由清华大学自然语言处理实验室于2020年发布，旨在推动中文细粒度命名实体识别（NER）领域的研究。该数据集针对中文文本中10类实体（如地址、书籍、公司等）进行标注，填补了当时中文细粒度NER数据集的空白。通过精心设计的标注规范和严格的质控流程，该数据集为研究者提供了高质量的基准数据，显著促进了中文信息抽取技术的发展，成为该领域广泛使用的评测基准之一。

当前挑战

该数据集主要面临两个层面的挑战：在领域问题层面，中文细粒度NER需要解决实体边界模糊、嵌套实体识别以及领域专业术语理解等难题；在构建过程层面，标注工作需要处理中文语言的复杂性，包括一词多义、实体歧义等问题，同时确保不同标注者之间的一致性。这些挑战使得构建高质量的中文细粒度NER数据集成为一项极具难度的任务。

常用场景

经典使用场景

在自然语言处理领域，cluener2020数据集作为中文细粒度命名实体识别（NER）任务的基准数据集，被广泛用于评估模型在10个实体类别上的识别性能。该数据集特别适用于研究中文文本中复杂实体边界的划分问题，如地址、书名、公司名等嵌套结构的识别。学术界常将其作为验证序列标注模型和新颖标注策略有效性的标准测试平台，特别是在处理中文特有的分词和实体嵌套挑战时。

解决学术问题

该数据集有效解决了中文细粒度实体识别中标注体系不统一、实体嵌套难以处理等核心学术问题。通过提供包含地址、机构名、职位等10类实体的精细标注，填补了传统粗粒度NER模型在特定领域应用时的性能空白。其标注体系的设计显著提升了模型对复合实体和长尾实体的识别能力，为中文信息抽取研究提供了重要的数据支撑。

实际应用

在智能客服、舆情分析等实际场景中，cluener2020支持的细粒度实体识别能力可精准提取用户咨询中的关键信息。金融领域利用其公司名、职位识别功能进行风险监控，而文化娱乐产业则通过电影、游戏等实体分类实现内容标签化。该数据集的应用显著提升了垂直领域知识图谱构建的效率和准确性。

数据集最近研究