broad-twitter-corpus

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/extraordinarylab/broad-twitter-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于命名实体识别的任务的数据集，包含文本序列（tokens）和相应的命名实体识别标签（ner_tags）。数据集分为训练集、验证集和测试集，共2209401字节，其中训练集1471690字节，包含6338个样本；验证集216979字节，包含1001个样本；测试集520732字节，包含2000个样本。数据集支持识别地点（LOC）、组织（ORG）和个人（PER）三种类型的命名实体。

创建时间：

2025-10-22

原始信息汇总

Broad Twitter Corpus 数据集概述

数据集基本信息

数据集名称: Broad Twitter Corpus
存储位置: https://huggingface.co/datasets/extraordinarylab/broad-twitter-corpus
总下载大小: 748,667 字节
数据集总大小: 2,209,401 字节

数据结构特征

数据字段

tokens: 字符串序列
ner_tags: 字符串序列

实体标注类型

LOC (地点)
ORG (组织)
PER (人物)

数据划分详情

训练集 (train)

样本数量: 6,338 条
数据大小: 1,471,690 字节

验证集 (validation)

样本数量: 1,001 条
数据大小: 216,979 字节

测试集 (test)

样本数量: 2,000 条
数据大小: 520,732 字节

文件配置

配置名称: default
训练集文件路径: data/train-*
验证集文件路径: data/validation-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在社交媒体文本挖掘领域，broad-twitter-corpus通过系统采集与标注构建而成。该数据集从Twitter平台提取原始推文，采用序列标注方法对文本中的命名实体进行识别，涵盖地理位置、组织机构与人名三类实体标签。标注过程遵循严谨的协议，确保实体边界与类型标注的一致性，最终形成包含训练集、验证集与测试集的标准化语料库。

特点

该数据集呈现多维度特征，其文本源自真实社交媒体的动态语境，蕴含丰富的非正式表达与网络用语。序列标注结构同时保留词汇序列与对应实体标签，支持细粒度实体识别研究。数据规模涵盖近万条样本，且按7:1:2比例划分数据分割，为模型训练与评估提供坚实基础。实体类型聚焦于实际应用中最核心的三大类别，兼具专业性与实用性。

使用方法

研究者可借助该数据集开展命名实体识别任务的端到端实验。典型流程包括加载标准化的训练集进行模型训练，利用验证集进行超参数调优，最终通过测试集评估模型泛化能力。数据以序列对形式呈现，可直接适配主流神经网络架构。建议结合预训练语言模型进行迁移学习，以应对社交媒体文本的语境复杂性，同时注意遵循数据分割规范以保障实验可比性。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别作为信息抽取的关键任务，旨在从非结构化文本中识别并分类实体。broad-twitter-corpus数据集聚焦于社交媒体文本分析，由研究机构在社交媒体数据爆炸式增长的背景下构建，专门针对推特平台上的实体标注需求。该数据集通过标注地理位置、组织机构与人名三类实体，推动了社交媒体信息提取技术的发展，为舆情分析与知识图谱构建提供了重要支撑。

当前挑战

该数据集需应对社交媒体文本中特有的语言噪声挑战，包括网络用语的非规范表达、缩写形式的歧义性以及上下文依赖的实体指代问题。在构建过程中，标注工作面临推特消息长度限制导致的语境碎片化困难，同时需要平衡不同实体类型的分布差异以确保标注质量。此外，动态更新的网络词汇与跨语言混用现象进一步增加了实体边界识别的复杂性。

常用场景

经典使用场景

在自然语言处理领域，broad-twitter-corpus作为社交媒体文本的命名实体识别基准数据集，其经典应用场景聚焦于模型对非正式语言中实体边界的精准划分。该数据集通过标注地理位置、组织机构与人名三类实体，为算法提供了识别推特文本中动态实体表达的标准框架，有效支撑了序列标注任务在嘈杂短文本环境下的性能验证。

衍生相关工作

基于该数据集衍生的经典研究包括多模态实体链接框架与跨语言迁移学习模型。众多学者通过融合该语料的实体标注特征，开发出适用于低资源语言的联合训练范式，并催生了面向社交媒体场景的实体标准化工具包，持续推动着开放域信息抽取技术体系的完善。

数据集最近研究