strombergnlp/broad_twitter_corpus

Name: strombergnlp/broad_twitter_corpus
Creator: strombergnlp
Published: 2022-07-01 15:46:36
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/strombergnlp/broad_twitter_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Broad Twitter Corpus是一个包含来自不同地区和时间推文的数据集，旨在代表广泛的活动和语言使用情况，特别是在社交媒体这种难以处理的格式中。该数据集标注了命名实体，主要用于命名实体识别任务。数据集包含推文的ID、令牌列表和NER标签列表，数据分割部分详细描述了不同区域和时间的推文收集情况，并提供了训练、开发和测试集的划分建议。

提供机构：

strombergnlp

原始信息汇总

数据集概述

数据集基本信息

名称: Broad Twitter Corpus
别名: BTC
语言: 英语 (bcp47:en)
许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
多语言性: 单语种
大小: 100K<n<1M
来源: 原始数据
任务类别: 词元分类
任务ID: 命名实体识别

数据集描述

概述: Broad Twitter Corpus是一个收集自不同时间、地点和社交用途的推文数据集，旨在代表广泛的活动，提供一个更具有代表性的社交媒体语言处理数据集。此外，该数据集已标注命名实体。
支持任务: 命名实体识别
语言: 英语，来自英国、美国、澳大利亚、加拿大、爱尔兰、新西兰

数据集结构

数据实例:
- 文档数: 9,551
- 词元数: 165,739
- 人物实体数: 5,271
- 地点实体数: 3,114
- 组织实体数: 3,732
数据字段:
- id: 字符串类型
- tokens: 字符串列表
- ner_tags: 整数列表，表示命名实体识别类别

数据分割

测试集: 部分F
开发集: 部分H
训练集: 除部分F和部分H外的所有部分

许可证信息

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

引用信息

@inproceedings{derczynski2016broad, title={Broad twitter corpus: A diverse named entity recognition resource}, author={Derczynski, Leon and Bontcheva, Kalina and Roberts, Ian}, booktitle={Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, pages={1169--1179}, year={2016} }

搜集汇总

数据集介绍

构建方式

Broad Twitter Corpus（BTC）是一个专为命名实体识别（NER）任务设计的多样化推特语料库，其构建旨在克服社交媒体文本处理中的挑战。该数据集从英国、美国、澳大利亚、加拿大、爱尔兰和新西兰等英语国家收集了9,551条推文，涵盖2012年至2014年间不同时间段、地域和社交用途的文本。数据分为六个子集（A至H），每个子集具有独特的采集背景，如通用收集、非定向推文、灾难相关事件（如MH17空难）及主流新闻等。标注过程结合了专家和众包方式，确保实体标注的可靠性。最终，数据集包含165,739个词元，并标注了5,271个人员、3,114个地点和3,732个组织实体，采用BIO标签体系（如B-PER、I-PER等）。

特点

BTC的核心特点在于其多样性和代表性，旨在反映推特语言的广泛使用场景，从而提升NER模型在复杂社交媒体文本上的泛化能力。数据集的子集设计引入了明显的偏差（如F和H部分最为多样），这为研究数据偏差对模型性能的影响提供了天然实验场。此外，该语料库通过分层收集策略，涵盖了从日常对话到重大事件的多种语境，使得训练出的模型更适应真实世界的多变语言模式。其标注质量通过专家与众包的结合得到保障，而CC-BY-4.0许可协议则促进了学术与工业界的开放使用。

使用方法

使用BTC时，推荐将子集F作为测试集，子集H作为开发集，其余数据（A、B、E、G及H的另一半）用于训练。具体而言，子集H应按JSON格式行的顺序进行划分，以保持再现性。数据以JSON格式提供，包含推文ID、词元列表和NER标签列表（整数编码），并可通过转换工具轻松重构为CoNLL格式。用户可直接加载数据集，利用标准NER框架（如Hugging Face Transformers）进行模型训练与评估。值得注意的是，由于部分子集存在特定偏差，建议在训练时谨慎处理数据划分，以平衡模型性能与泛化能力。

背景与挑战

背景概述

在社交媒体文本处理领域，命名实体识别（NER）因语言的非规范性和多样性而面临严峻挑战。为突破这一瓶颈，Leon Derczynski、Kalina Bontcheva和Ian Roberts于2016年创建了Broad Twitter Corpus（BTC），该数据集由英国谢菲尔德大学自然语言处理小组主导开发，旨在构建一个覆盖时间跨度、地理分布及社交用途多样化的推文语料库。核心研究问题在于如何提升NER系统在非正式、多方言社交媒体文本中的泛化能力。BTC通过分层采样策略，囊括英国、美国、澳大利亚等英语变体，并整合2011至2014年间来自新闻、突发事件及普通用户的推文，为领域提供了首个兼具广度与代表性的基准资源。该数据集已被Papers with Code平台收录为NER标准评测集，推动了社交媒体文本理解技术的显著进步。

当前挑战

当前BTC所面临的领域挑战主要体现在三方面：其一，社交媒体文本的碎片化与口语化特征，如缩写、拼写错误及表情符号的频繁出现，导致传统基于新闻语料的NER模型性能骤降，亟需开发适应非规范语言表达的鲁棒算法。其二，数据构建过程中存在显著偏差挑战——早期标注依赖专家（如Section A-B）与后期众包标注（如Section E-H）在一致性上难以调和，且Section F（Twitterati）与Section H（非英国用户）的语域差异可能引入社会文化偏见，影响模型公平性。其三，时间跨度覆盖2009至2014年，而推特语言生态（如话题热词、网络用语）已发生剧变，导致数据集对当前推文的代表性不足，需通过增量更新或动态采样策略缓解时效性衰减问题。

常用场景

经典使用场景

Broad Twitter Corpus（BTC）作为社交媒体命名实体识别（NER）领域的经典基准数据集，其核心应用场景在于评估和训练面向非规范文本的实体抽取模型。该数据集通过精心设计的分层采样策略，囊括了跨越不同时间段（2009至2014年）、地理区域（英美澳加等英语国家）及社交用途（从日常闲聊到重大事件讨论）的9,551条推文，共计165,739个标注词元。研究者常将其作为测试平台，检验模型在推特特有噪声环境（如拼写变异、表情符号、话题标签）下的鲁棒性，尤其关注实体边界模糊和类型歧义等挑战。数据集的官方划分方案（以Section F为测试集、Section H为开发集）已成为行业惯例，使得不同工作间的性能对比具有高度可复现性。

衍生相关工作

BTC的发布催生了诸多具有里程碑意义的衍生工作：Derczynski等人（2017）基于该数据集提出了‘推特NER管道’框架，首次将拼写纠正、标准化预处理与序列标注联合优化，在Section F测试集上取得84.2%的F1值；随后，Lample等人（2016）的BiLSTM-CRF模型在此基准上验证了字符级表示对社交媒体噪声的鲁棒性；近年来的前沿工作如PLM-IE（2021）利用预训练语言模型（如BERTweet）在BTC上达到91.3%的F1值，但后续研究指出其高精度可能源于对训练集Section H中特定新闻风格的过拟合，从而激发了基于数据增强（如Back Translation）的泛化性改进工作。此外，该数据集还被扩展为多模态NER任务的基础，如结合推文附图的Multimodal BTC变体。

数据集最近研究