Broad Twitter Corpus
收藏github2024-05-08 更新2024-05-31 收录
下载链接:
https://github.com/GateNLP/broad_twitter_corpus
下载链接
链接失效反馈官方服务:
资源简介:
Broad Twitter Corpus是一个英语NER数据集,通过时间、地点和社会媒体类型进行分层收集,旨在代表广泛的活动,提供一个更能代表社交媒体中最难处理格式的语言使用的数据集。此外,该数据集还包含了命名实体的注释。
The Broad Twitter Corpus is an English Named Entity Recognition (NER) dataset, stratified by time, location, and social media type, designed to represent a wide range of activities. It provides a dataset that more accurately reflects the linguistic usage in the most challenging formats on social media. Additionally, this dataset includes annotations for named entities.
创建时间:
2018-02-02
原始信息汇总
数据集概述
数据集名称
Broad Twitter Corpus (BTC)
数据集描述
BTC是一个包含推文的数据集,这些推文根据时间、地点和社会用途进行了分层收集。该数据集旨在代表广泛的活动,更全面地反映社交媒体中最难处理的语言使用情况。此外,BTC还进行了命名实体标注,包括实体和众包标注。
数据集格式
数据提供三种格式:CoNLL、JSON和GATE XML。JSON格式最为丰富,包含原始推文JSON,以及描述令牌偏移、令牌文本和令牌标签的字段。部分推文(如A和B部分)可能已被删除,此时GATE XML标注为权威。此外,还提供CrowdFlower的纯标注数据。
数据集使用
BTC采用CC-BY 4.0许可。使用此数据集需引用相关论文:
- Broad Twitter Corpus: A Diverse Named Entity Recognition Resource. Leon Derczynski, Kalina Bontcheva, and Ian Roberts. Proceedings of COLING, pages 1169-1179 2016.
数据集结构
| 部分 | 地区 | 收集时间 | 描述 | 标注者 | 推文数量 |
|---|---|---|---|---|---|
| A | UK | 2012.01 | 一般收集 | 专家 | 1000 |
| B | UK | 2012.01-02 | 非定向推文 | 专家 | 2000 |
| E | 全球 | 2014.07 | MH17灾难相关 | 众包 & 专家 | 200 |
| F | 分层 | 2009-2014 | Twitterati | 众包 & 专家 | 2000 |
| G | 分层 | 2011-2014 | 主流新闻 | 众包 & 专家 | 2351 |
| H | 非UK | 2014 | 一般收集 | 众包 & 专家 | 2000 |
推荐分割
- 测试: 部分F
- 开发: 部分H的第二半
- 训练: 其余所有部分
搜集汇总
数据集介绍

构建方式
Broad Twitter Corpus(BTC)通过分层的时间、地点和社会用途收集推文,旨在构建一个能够代表社交媒体语言多样性的数据集。数据集的构建涵盖了多个时间段和地区,包括英国、全球以及其他非英国地区,具体包括2012年1月的英国普通推文、2012年1月至2月的非定向推文、2014年7月与MH17灾难相关的推文等。此外,数据集还通过专家和众包注释者对命名实体进行了标注,确保了数据的质量和多样性。
特点
BTC数据集的显著特点在于其广泛的代表性和多样性,涵盖了不同时间、地点和社会背景下的推文,使得数据集能够反映出社交媒体语言的复杂性。此外,数据集提供了多种格式的数据,包括CoNLL、JSON和GATE XML,其中JSON格式最为丰富,包含了推文的原始数据以及额外的标注信息。数据集还提供了众包注释数据,便于未来研究者在众包任务中的应用。
使用方法
使用Broad Twitter Corpus时,建议采用推荐的分割方式,将数据集分为训练集、开发集和测试集。具体而言,测试集使用Section F,开发集使用Section H的后半部分,其余部分作为训练集。数据集提供了多种格式的数据,用户可以根据需求选择合适的格式进行处理。此外,数据集的引用需遵循CC-BY 4.0许可协议,并引用相关论文以确保学术规范。
背景与挑战
背景概述
Broad Twitter Corpus(BTC)是由Leon Derczynski、Kalina Bontcheva和Ian Roberts于2016年创建的,旨在捕捉社交媒体平台Twitter上多样化的语言使用情况。该数据集通过分层采样,涵盖了不同时间、地点和社会用途的推文,力求更全面地反映Twitter上的语言多样性。BTC不仅包含原始推文数据,还提供了命名实体的标注,使其成为自然语言处理领域中命名实体识别(NER)任务的重要资源。该数据集的发布对社交媒体语言分析、信息抽取等研究领域产生了深远影响,为研究人员提供了丰富的语料库资源。
当前挑战
Broad Twitter Corpus在构建过程中面临多重挑战。首先,Twitter作为动态变化的社交媒体平台,其语言使用具有高度的时效性和多样性,如何有效捕捉并代表这些特征是一个主要难题。其次,数据集的标注工作涉及专家和众包两种方式,确保标注的一致性和准确性是另一大挑战。此外,由于Twitter平台的隐私政策和推文删除机制,部分推文无法获取,导致数据集的完整性受到影响。最后,如何平衡数据集的多样性与特定任务的需求,如命名实体识别,也是该数据集在使用过程中需要解决的问题。
常用场景
经典使用场景
Broad Twitter Corpus(BTC)作为一种多层次、多维度的社交媒体语言数据集,其经典使用场景主要集中在自然语言处理(NLP)领域,尤其是命名实体识别(NER)任务。通过分析不同时间、地点和社会背景下的推文,研究者能够深入探索社交媒体语言的多样性和复杂性。BTC的标注数据为实体识别提供了丰富的训练和测试资源,尤其适用于研究社交媒体中特定事件(如MH17灾难)相关的语言表达。
解决学术问题
BTC通过提供多层次、多维度的推文数据,解决了社交媒体语言处理中的多个学术难题。首先,它为命名实体识别提供了丰富的标注数据,帮助研究者更好地理解社交媒体中实体的表达方式。其次,通过不同时间、地点和社会背景的推文收集,BTC为研究社交媒体语言的动态变化提供了重要资源。此外,BTC还为研究者提供了处理社交媒体数据的标准化方法,推动了相关领域的研究进展。
衍生相关工作
BTC的发布催生了一系列相关研究工作,尤其是在社交媒体语言处理和命名实体识别领域。许多研究者基于BTC开发了新的NER模型,提升了社交媒体数据的处理能力。此外,BTC还为研究社交媒体语言的动态变化和多样性提供了重要资源,推动了相关领域的理论和应用研究。随着BTC的不断更新和扩展,未来将有更多基于该数据集的研究成果涌现。
以上内容由遇见数据集搜集并总结生成



