CLUENER2020

github2023-04-11 更新2024-05-31 收录

下载链接：

https://github.com/taishan1994/UIE_CLUENER

下载链接

链接失效反馈

官方服务：

资源简介：

CLUENER2020是一个细粒度实体识别数据集，用于实体识别任务，数据集包含多种实体类型如人名、地址、公司等，并提供了实体在文本中的位置信息。

CLUENER2020乃一精细颗粒度实体识别数据集，专用于实体识别任务。该数据集囊括了诸如人名、地址、公司等多种实体类型，并详尽地提供了这些实体在文本中的具体位置信息。

创建时间：

2022-12-22

原始信息汇总

数据集概述

数据集名称

名称: UIE_CLUENER
描述: 使用百度的UIE解决CLUENER2020细粒度实体识别数据集。

数据准备

原始数据

文件: train.json, dev.json, test.json
位置: data/cluener/
格式:
- train.json 和 dev.json: python {"text": "...", "label": {...}}
- test.json: python {"id": 0, "text": "..."}

数据处理

处理工具: process.py
输出: train_doccano.json, dev_doccano.json
格式: python {"id": 0, "text": "...", "relations": [], "entities": [...] }

数据统计

实体数目: +--------+------+ | 标签名 | 数目 | +--------+------+ | 组织 | 3075 | | 人名 | 3661 | | 地址 | 2829 | | 公司 | 2897 | | 政府 | 1797 | | 书籍 | 1131 | | 游戏 | 2325 | | 电影 | 1109 | | 职位 | 3052 | | 景点 | 1462 | +--------+------+
文本长度统计: +----------+------+ | 文本长度 | 数目 | +----------+------+ | 2 | 1 | | 3 | 7 | | 4 | 8 | | 5 | 12 | | 6 | 16 | | 7 | 10 | | 8 | 26 | | 9 | 37 | | 10 | 51 | | 11 | 80 | | 12 | 69 | | 13 | 62 | | 14 | 77 | | 15 | 89 | | 16 | 114 | | 17 | 159 | | 18 | 121 | | 19 | 112 | | 20 | 141 | | 21 | 134 | | 22 | 208 | | 23 | 91 | | 24 | 82 | | 25 | 124 | | 26 | 95 | | 27 | 97 | | 28 | 133 | | 29 | 117 | | 30 | 165 | | 31 | 154 | | 32 | 193 | | 33 | 200 | | 34 | 213 | | 35 | 259 | | 36 | 290 | | 37 | 338 | | 38 | 391 | | 39 | 395 | | 40 | 471 | | 41 | 487 | | 42 | 537 | | 43 | 564 | | 44 | 538 | | 45 | 581 | | 46 | 504 | | 47 | 516 | | 48 | 571 | | 49 | 595 | | 50 | 513 | +----------+------+

数据集使用

训练和验证模型

训练命令: python python finetune.py ...
验证命令: python python evaluate.py ...

预测

预测命令: python python predict_to_file.py

数据蒸馏

蒸馏数据: python python data_distill.py ...
评估教师模型: python python evaluate_teacher.py ...
根据预测数据训练模型: python python train.py ...
评估模型: python python evaluate.py ...

数据集评估结果

模型评估: Evaluation Precision: 0.81694 | Recall: 0.81641 | F1: 0.81667

预测示例

示例文本: python text = "..."
预测结果: python [{人名: [{...}], 游戏: [{...}]}]

搜集汇总

数据集介绍

构建方式

CLUENER2020数据集的构建过程主要依赖于对中文文本的细粒度实体识别任务。数据集的原始数据包括train.json、dev.json和test.json三个文件，其中train.json和dev.json包含了文本及其对应的实体标签，而test.json仅包含文本数据。通过process.py脚本，数据被转换为doccano标注格式，生成了train_doccano.json和dev_doccano.json文件。这些文件进一步被处理为训练所需的train.txt、dev.txt和test.txt文件，格式为包含文本内容、实体列表及实体类型的JSON格式。

使用方法

CLUENER2020数据集的使用方法主要包括数据准备、模型训练和验证。首先，通过doccano.py脚本将原始数据转换为训练所需的格式。接着，使用finetune.py脚本进行模型训练，设置相关参数如设备类型、训练步数、学习率等。训练完成后，通过evaluate.py脚本对模型进行验证，评估其在dev.txt上的表现。此外，数据集还可用于数据蒸馏任务，通过少量标注数据训练模型，预测大量无标签数据，并将预测结果加入训练集以进一步提升模型性能。

背景与挑战

背景概述

CLUENER2020数据集是中文细粒度命名实体识别领域的重要资源，由CLUEbenchmark团队于2020年发布。该数据集旨在解决中文文本中复杂实体类别的识别问题，涵盖了组织、人名、地址、公司、政府、书籍、游戏、电影、职位和景点等十类实体。其核心研究问题在于如何通过细粒度的实体分类提升自然语言处理任务中的信息抽取精度。CLUENER2020的发布为中文信息抽取领域的研究提供了重要的数据支持，推动了相关算法和模型的优化与创新。

当前挑战

CLUENER2020数据集在解决中文细粒度实体识别问题时面临多重挑战。首先，中文文本的语义复杂性和实体边界的模糊性增加了识别的难度，尤其是对于嵌套实体和多义词的处理。其次，数据集中各类实体的分布不均衡，如‘书籍’和‘电影’类别的样本数量较少，可能导致模型在训练过程中对少数类别的识别效果不佳。此外，数据集的构建过程中，标注的一致性和准确性也面临挑战，尤其是在处理长文本和多实体共现的场景时，标注的精细度和覆盖范围直接影响模型的性能。

常用场景

经典使用场景

CLUENER2020数据集广泛应用于中文细粒度命名实体识别（NER）任务中，特别是在处理复杂文本中的多类别实体识别时表现出色。该数据集通过提供丰富的实体类别（如人名、地址、公司等），帮助研究者在自然语言处理领域进行深入的模型训练和评估。其经典使用场景包括新闻文本分析、社交媒体数据处理以及法律文档解析等，能够有效提升模型在复杂语境下的实体识别能力。

解决学术问题

CLUENER2020数据集解决了中文细粒度命名实体识别中的多个学术问题，尤其是在实体类别多样性和上下文复杂性方面。通过提供高质量的标注数据，该数据集帮助研究者克服了传统NER模型在处理多类别实体时的局限性，显著提升了模型的准确性和泛化能力。此外，该数据集还为低资源语言环境下的NER研究提供了宝贵的实验数据，推动了中文自然语言处理领域的技术进步。

实际应用

在实际应用中，CLUENER2020数据集被广泛用于构建智能客服系统、信息抽取工具以及知识图谱构建等领域。例如，在智能客服系统中，该数据集可以帮助系统更准确地识别用户输入中的关键实体（如人名、地址等），从而提供更精准的服务。此外，该数据集还被用于法律文本分析，帮助自动化系统快速提取案件中的关键信息，提升法律文档处理的效率。

数据集最近研究