hltcoe/weibo_ner|命名实体识别数据集|中文文本处理数据集

hugging_face2024-01-18 更新2024-06-15 收录

命名实体识别

中文文本处理

下载链接：

https://hf-mirror.com/datasets/hltcoe/weibo_ner

下载链接

链接失效反馈

资源简介：

Weibo NER数据集是一个中文单语种数据集，专门用于命名实体识别任务。该数据集包含1350个训练样本，270个验证样本和270个测试样本。数据集的特征包括id、tokens和ner_tags，其中ner_tags包含了多种命名实体标签，如地理位置、组织、人物等。数据集的标注是由专家生成的，源数据为原始数据。

The Weibo NER dataset is a monolingual Chinese dataset specifically designed for Named Entity Recognition tasks. It contains 1350 training samples, 270 validation samples, and 270 test samples. The dataset features include id, tokens, and ner_tags, where ner_tags contains various named entity labels such as locations, organizations, and persons. The annotations in the dataset are expert-generated, and the source data is original.

提供机构：

hltcoe

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于微博平台上的文本数据，通过专家生成的方式进行命名实体识别（NER）标注。数据集包含了1350条训练样本、270条验证样本和270条测试样本。标注过程涉及对文本中的地理、组织和人物等实体进行分类，使用BIO标签体系，其中B表示实体的开始，I表示实体的内部，O表示非实体。

特点

该数据集的主要特点在于其专注于中文社交媒体文本，特别是微博平台上的内容。这种特定领域的数据为研究社交媒体中的命名实体识别提供了独特的视角。此外，数据集的标注质量高，由专家生成，确保了标注的准确性和一致性。

使用方法

使用该数据集进行命名实体识别任务时，用户可以利用提供的训练、验证和测试集进行模型训练和评估。数据集的特征包括文本ID、分词后的tokens以及对应的NER标签。用户可以通过加载数据集并映射相应的字段，如tokens和ner_tags，来进行模型的训练和测试。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（Named Entity Recognition, NER）是文本分析中的关键任务之一。hltcoe/weibo_ner数据集由专家生成，专注于中文微博文本的命名实体识别。该数据集由HLTCOE（Human Language Technology Center of Excellence）机构创建，旨在解决微博文本中实体识别的挑战。通过提供微博文本中的实体标注，该数据集为研究者提供了一个评估和改进NER模型性能的平台，对中文社交媒体文本分析领域具有重要影响。

当前挑战

hltcoe/weibo_ner数据集在构建过程中面临多重挑战。首先，微博文本的非正式性和多样性增加了实体识别的复杂性。其次，数据集的标注过程依赖于专家，这可能导致标注一致性和质量的挑战。此外，数据集的规模相对较小，可能限制了模型的泛化能力。最后，数据集的许可信息不明确，可能影响其在学术和商业应用中的使用。

常用场景

经典使用场景

在自然语言处理领域，hltcoe/weibo_ner数据集的经典使用场景主要集中在命名实体识别（Named Entity Recognition, NER）任务上。该数据集通过标注微博文本中的实体，如地理位置、组织、人物等，为研究人员提供了一个丰富的资源，用于训练和评估NER模型。通过分析微博平台上的文本，研究人员可以开发出能够自动识别和分类文本中实体的算法，从而提升信息提取和文本分析的准确性。

解决学术问题

hltcoe/weibo_ner数据集解决了自然语言处理领域中命名实体识别的关键学术问题。通过提供高质量的标注数据，该数据集帮助研究人员克服了在社交媒体文本中识别实体的挑战，尤其是在中文语境下。这不仅推动了NER技术的发展，还为跨语言和跨平台的实体识别研究提供了宝贵的参考。此外，该数据集的引入，促进了相关算法的优化和性能提升，对学术界产生了深远的影响。

衍生相关工作

hltcoe/weibo_ner数据集的发布，催生了一系列相关的经典工作。例如，研究人员基于该数据集开发了多种NER模型，这些模型在多个公开评测中表现优异，推动了NER技术的前沿发展。此外，该数据集还被用于跨语言NER模型的研究，促进了中文与其他语言在实体识别任务上的对比分析。这些衍生工作不仅丰富了NER领域的研究内容，也为实际应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

RadDet

RadDet是一个包含11种雷达类别的数据集，包括6种新的低概率干扰（LPI）多相码（P1, P2, P3, P4, Px, Zadoff-Chu）和一种新的宽带调频连续波（FMCW）。数据集覆盖500 MHz频段，包含40,000个雷达帧，分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供：稀疏数据集（RadDet-1T）和密集数据集（RadDet-9T）。

github 收录