Broad Twitter Corpus

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/GateNLP/broad_twitter_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Broad Twitter Corpus是一个英语NER数据集，通过时间、地点和社会媒体类型进行分层收集，旨在代表广泛的活动，提供一个更能代表社交媒体中最难处理格式的语言使用的数据集。此外，该数据集还包含了命名实体的注释。

The Broad Twitter Corpus is an English Named Entity Recognition (NER) dataset, stratified by time, location, and social media type, designed to represent a wide range of activities. It provides a dataset that more accurately reflects the linguistic usage in the most challenging formats on social media. Additionally, this dataset includes annotations for named entities.

创建时间：

2018-02-02

原始信息汇总

数据集概述

数据集名称

Broad Twitter Corpus (BTC)

数据集描述

BTC是一个包含推文的数据集，这些推文根据时间、地点和社会用途进行了分层收集。该数据集旨在代表广泛的活动，更全面地反映社交媒体中最难处理的语言使用情况。此外，BTC还进行了命名实体标注，包括实体和众包标注。

数据集格式

数据提供三种格式：CoNLL、JSON和GATE XML。JSON格式最为丰富，包含原始推文JSON，以及描述令牌偏移、令牌文本和令牌标签的字段。部分推文（如A和B部分）可能已被删除，此时GATE XML标注为权威。此外，还提供CrowdFlower的纯标注数据。

数据集使用

BTC采用CC-BY 4.0许可。使用此数据集需引用相关论文：

Broad Twitter Corpus: A Diverse Named Entity Recognition Resource. Leon Derczynski, Kalina Bontcheva, and Ian Roberts. Proceedings of COLING, pages 1169-1179 2016.

数据集结构

部分	地区	收集时间	描述	标注者	推文数量
A	UK	2012.01	一般收集	专家	1000
B	UK	2012.01-02	非定向推文	专家	2000
E	全球	2014.07	MH17灾难相关	众包 & 专家	200
F	分层	2009-2014	Twitterati	众包 & 专家	2000
G	分层	2011-2014	主流新闻	众包 & 专家	2351
H	非UK	2014	一般收集	众包 & 专家	2000

推荐分割

测试: 部分F
开发: 部分H的第二半
训练: 其余所有部分

搜集汇总

数据集介绍

构建方式

Broad Twitter Corpus（BTC）通过分层的时间、地点和社会用途收集推文，旨在构建一个能够代表社交媒体语言多样性的数据集。数据集的构建涵盖了多个时间段和地区，包括英国、全球以及其他非英国地区，具体包括2012年1月的英国普通推文、2012年1月至2月的非定向推文、2014年7月与MH17灾难相关的推文等。此外，数据集还通过专家和众包注释者对命名实体进行了标注，确保了数据的质量和多样性。

特点

BTC数据集的显著特点在于其广泛的代表性和多样性，涵盖了不同时间、地点和社会背景下的推文，使得数据集能够反映出社交媒体语言的复杂性。此外，数据集提供了多种格式的数据，包括CoNLL、JSON和GATE XML，其中JSON格式最为丰富，包含了推文的原始数据以及额外的标注信息。数据集还提供了众包注释数据，便于未来研究者在众包任务中的应用。

使用方法

使用Broad Twitter Corpus时，建议采用推荐的分割方式，将数据集分为训练集、开发集和测试集。具体而言，测试集使用Section F，开发集使用Section H的后半部分，其余部分作为训练集。数据集提供了多种格式的数据，用户可以根据需求选择合适的格式进行处理。此外，数据集的引用需遵循CC-BY 4.0许可协议，并引用相关论文以确保学术规范。

背景与挑战

背景概述

Broad Twitter Corpus（BTC）是由Leon Derczynski、Kalina Bontcheva和Ian Roberts于2016年创建的，旨在捕捉社交媒体平台Twitter上多样化的语言使用情况。该数据集通过分层采样，涵盖了不同时间、地点和社会用途的推文，力求更全面地反映Twitter上的语言多样性。BTC不仅包含原始推文数据，还提供了命名实体的标注，使其成为自然语言处理领域中命名实体识别（NER）任务的重要资源。该数据集的发布对社交媒体语言分析、信息抽取等研究领域产生了深远影响，为研究人员提供了丰富的语料库资源。

当前挑战

Broad Twitter Corpus在构建过程中面临多重挑战。首先，Twitter作为动态变化的社交媒体平台，其语言使用具有高度的时效性和多样性，如何有效捕捉并代表这些特征是一个主要难题。其次，数据集的标注工作涉及专家和众包两种方式，确保标注的一致性和准确性是另一大挑战。此外，由于Twitter平台的隐私政策和推文删除机制，部分推文无法获取，导致数据集的完整性受到影响。最后，如何平衡数据集的多样性与特定任务的需求，如命名实体识别，也是该数据集在使用过程中需要解决的问题。

常用场景

经典使用场景

Broad Twitter Corpus（BTC）作为一种多层次、多维度的社交媒体语言数据集，其经典使用场景主要集中在自然语言处理（NLP）领域，尤其是命名实体识别（NER）任务。通过分析不同时间、地点和社会背景下的推文，研究者能够深入探索社交媒体语言的多样性和复杂性。BTC的标注数据为实体识别提供了丰富的训练和测试资源，尤其适用于研究社交媒体中特定事件（如MH17灾难）相关的语言表达。

解决学术问题

BTC通过提供多层次、多维度的推文数据，解决了社交媒体语言处理中的多个学术难题。首先，它为命名实体识别提供了丰富的标注数据，帮助研究者更好地理解社交媒体中实体的表达方式。其次，通过不同时间、地点和社会背景的推文收集，BTC为研究社交媒体语言的动态变化提供了重要资源。此外，BTC还为研究者提供了处理社交媒体数据的标准化方法，推动了相关领域的研究进展。

衍生相关工作

BTC的发布催生了一系列相关研究工作，尤其是在社交媒体语言处理和命名实体识别领域。许多研究者基于BTC开发了新的NER模型，提升了社交媒体数据的处理能力。此外，BTC还为研究社交媒体语言的动态变化和多样性提供了重要资源，推动了相关领域的理论和应用研究。随着BTC的不断更新和扩展，未来将有更多基于该数据集的研究成果涌现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集