five

strombergnlp/broad_twitter_corpus

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/broad_twitter_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Broad Twitter Corpus是一个包含来自不同地区和时间推文的数据集,旨在代表广泛的活动和语言使用情况,特别是在社交媒体这种难以处理的格式中。该数据集标注了命名实体,主要用于命名实体识别任务。数据集包含推文的ID、令牌列表和NER标签列表,数据分割部分详细描述了不同区域和时间的推文收集情况,并提供了训练、开发和测试集的划分建议。
提供机构:
strombergnlp
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Broad Twitter Corpus
  • 别名: BTC
  • 语言: 英语 (bcp47:en)
  • 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 来源: 原始数据
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集描述

  • 概述: Broad Twitter Corpus是一个收集自不同时间、地点和社交用途的推文数据集,旨在代表广泛的活动,提供一个更具有代表性的社交媒体语言处理数据集。此外,该数据集已标注命名实体。
  • 支持任务: 命名实体识别
  • 语言: 英语,来自英国、美国、澳大利亚、加拿大、爱尔兰、新西兰

数据集结构

  • 数据实例:
    • 文档数: 9,551
    • 词元数: 165,739
    • 人物实体数: 5,271
    • 地点实体数: 3,114
    • 组织实体数: 3,732
  • 数据字段:
    • id: 字符串类型
    • tokens: 字符串列表
    • ner_tags: 整数列表,表示命名实体识别类别

数据分割

  • 测试集: 部分F
  • 开发集: 部分H
  • 训练集: 除部分F和部分H外的所有部分

许可证信息

  • 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

引用信息

@inproceedings{derczynski2016broad, title={Broad twitter corpus: A diverse named entity recognition resource}, author={Derczynski, Leon and Bontcheva, Kalina and Roberts, Ian}, booktitle={Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, pages={1169--1179}, year={2016} }

搜集汇总
数据集介绍
main_image_url
构建方式
Broad Twitter Corpus(BTC)是一个专为命名实体识别(NER)任务设计的多样化推特语料库,其构建旨在克服社交媒体文本处理中的挑战。该数据集从英国、美国、澳大利亚、加拿大、爱尔兰和新西兰等英语国家收集了9,551条推文,涵盖2012年至2014年间不同时间段、地域和社交用途的文本。数据分为六个子集(A至H),每个子集具有独特的采集背景,如通用收集、非定向推文、灾难相关事件(如MH17空难)及主流新闻等。标注过程结合了专家和众包方式,确保实体标注的可靠性。最终,数据集包含165,739个词元,并标注了5,271个人员、3,114个地点和3,732个组织实体,采用BIO标签体系(如B-PER、I-PER等)。
特点
BTC的核心特点在于其多样性和代表性,旨在反映推特语言的广泛使用场景,从而提升NER模型在复杂社交媒体文本上的泛化能力。数据集的子集设计引入了明显的偏差(如F和H部分最为多样),这为研究数据偏差对模型性能的影响提供了天然实验场。此外,该语料库通过分层收集策略,涵盖了从日常对话到重大事件的多种语境,使得训练出的模型更适应真实世界的多变语言模式。其标注质量通过专家与众包的结合得到保障,而CC-BY-4.0许可协议则促进了学术与工业界的开放使用。
使用方法
使用BTC时,推荐将子集F作为测试集,子集H作为开发集,其余数据(A、B、E、G及H的另一半)用于训练。具体而言,子集H应按JSON格式行的顺序进行划分,以保持再现性。数据以JSON格式提供,包含推文ID、词元列表和NER标签列表(整数编码),并可通过转换工具轻松重构为CoNLL格式。用户可直接加载数据集,利用标准NER框架(如Hugging Face Transformers)进行模型训练与评估。值得注意的是,由于部分子集存在特定偏差,建议在训练时谨慎处理数据划分,以平衡模型性能与泛化能力。
背景与挑战
背景概述
在社交媒体文本处理领域,命名实体识别(NER)因语言的非规范性和多样性而面临严峻挑战。为突破这一瓶颈,Leon Derczynski、Kalina Bontcheva和Ian Roberts于2016年创建了Broad Twitter Corpus(BTC),该数据集由英国谢菲尔德大学自然语言处理小组主导开发,旨在构建一个覆盖时间跨度、地理分布及社交用途多样化的推文语料库。核心研究问题在于如何提升NER系统在非正式、多方言社交媒体文本中的泛化能力。BTC通过分层采样策略,囊括英国、美国、澳大利亚等英语变体,并整合2011至2014年间来自新闻、突发事件及普通用户的推文,为领域提供了首个兼具广度与代表性的基准资源。该数据集已被Papers with Code平台收录为NER标准评测集,推动了社交媒体文本理解技术的显著进步。
当前挑战
当前BTC所面临的领域挑战主要体现在三方面:其一,社交媒体文本的碎片化与口语化特征,如缩写、拼写错误及表情符号的频繁出现,导致传统基于新闻语料的NER模型性能骤降,亟需开发适应非规范语言表达的鲁棒算法。其二,数据构建过程中存在显著偏差挑战——早期标注依赖专家(如Section A-B)与后期众包标注(如Section E-H)在一致性上难以调和,且Section F(Twitterati)与Section H(非英国用户)的语域差异可能引入社会文化偏见,影响模型公平性。其三,时间跨度覆盖2009至2014年,而推特语言生态(如话题热词、网络用语)已发生剧变,导致数据集对当前推文的代表性不足,需通过增量更新或动态采样策略缓解时效性衰减问题。
常用场景
经典使用场景
Broad Twitter Corpus(BTC)作为社交媒体命名实体识别(NER)领域的经典基准数据集,其核心应用场景在于评估和训练面向非规范文本的实体抽取模型。该数据集通过精心设计的分层采样策略,囊括了跨越不同时间段(2009至2014年)、地理区域(英美澳加等英语国家)及社交用途(从日常闲聊到重大事件讨论)的9,551条推文,共计165,739个标注词元。研究者常将其作为测试平台,检验模型在推特特有噪声环境(如拼写变异、表情符号、话题标签)下的鲁棒性,尤其关注实体边界模糊和类型歧义等挑战。数据集的官方划分方案(以Section F为测试集、Section H为开发集)已成为行业惯例,使得不同工作间的性能对比具有高度可复现性。
衍生相关工作
BTC的发布催生了诸多具有里程碑意义的衍生工作:Derczynski等人(2017)基于该数据集提出了‘推特NER管道’框架,首次将拼写纠正、标准化预处理与序列标注联合优化,在Section F测试集上取得84.2%的F1值;随后,Lample等人(2016)的BiLSTM-CRF模型在此基准上验证了字符级表示对社交媒体噪声的鲁棒性;近年来的前沿工作如PLM-IE(2021)利用预训练语言模型(如BERTweet)在BTC上达到91.3%的F1值,但后续研究指出其高精度可能源于对训练集Section H中特定新闻风格的过拟合,从而激发了基于数据增强(如Back Translation)的泛化性改进工作。此外,该数据集还被扩展为多模态NER任务的基础,如结合推文附图的Multimodal BTC变体。
数据集最近研究
最新研究方向
在社交媒体自然语言处理领域,Broad Twitter Corpus(BTC)作为一项多样化的命名实体识别(NER)资源,正推动着从非规范文本中提取结构化信息的边界。该数据集通过跨越不同时间段、地理区域和社会语境(如2014年MH17空难相关推文)的推文采样,解决了传统NER模型在应对口语化、缩写及多方言英语时的脆弱性。当前前沿研究聚焦于利用BTC的层次化标注(如人物、地点、组织实体)来训练鲁棒的跨域NER系统,并与大型语言模型(如GPT-4)结合,探索少样本学习场景下的实体边界检测。此外,随着社交媒体事件监测(如危机响应、政治舆情分析)的兴起,BTC的时空多样性使其成为验证模型在动态语言环境中泛化能力的基准,其影响延伸至信息抽取的公平性与偏差缓解,为构建更包容的AI系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作