xLiMe Twitter Corpus

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/lrei/xlime_twitter_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

xLiMe Twitter Corpus是一个包含德语、意大利语和西班牙语的推文数据集，包含词性标签、命名实体和情感分析等标注。

The xLiMe Twitter Corpus is a dataset comprising tweets in German, Italian, and Spanish, annotated with part-of-speech tags, named entities, and sentiment analysis.

创建时间：

2015-10-30

原始信息汇总

数据集概述

名称: xLiMe Twitter Corpus

作者: Luis Rei, Simon Krek, Dunja Mladenić

联系方式: {first.last}@ijs.si

语言:

德语
意大利语
西班牙语

注释类型:

词性标签
命名实体
情感（极性，消息级别）

数据集统计

总体数据

数据集包含注释的推文。
部分推文由所有工作在该语言的注释者标记。

语言统计

语言	注释者数量	推文数量	词数	重叠推文数量	重叠词数
德语	2	3447	58264	47	791
意大利语	3	8646	154371	45	758
西班牙语	2	7713	133906	45	721

去除重叠后的数据

语言	推文数量	词数
德语	3400	60873
意大利语	8601	162269
西班牙语	7668	140852

情感分析

语言	积极	中性	消极	总计
德语	334	2924	142	3400
意大利语	554	7524	523	8601
西班牙语	388	7083	197	7668

词性标注

标签	德语	意大利语	西班牙语
形容词	2514	7684	5741
介词	4333	14960	13467
副词	4173	8476	6116
连词	1576	6737	6684
续词	918	4227	3422
限定词	2990	9811	10037
表情符号	449	1076	951
标签	1895	3035	1805
感叹词	225	1427	1109
提及	1984	6519	9070
名词	11057	30759	23230
数词	1176	2550	1568
其他	1936	1503	3033
粒子	638	352	18
代词	4530	7737	10333
标点符号	8650	20529	14102
URL	1923	4494	3019
动词	6506	21793	19460

命名实体识别

实体类型	德语	意大利语	西班牙语
地点	742	2087	1441
杂项	995	5802	775
组织	350	1150	836
人物	757	3701	2321
总计	2844	12740	5373

注释一致性测量

情感分析

测量	德语	意大利语	西班牙语
文档数量	47	45	45
注释者数量	2	3	2
原始一致性	0.83	0.59	0.73
Cohen/Fleiss Kappa	-0.07	0.02	0.37
解释	差	轻微	公平

词性标注

测量	德语	意大利语	西班牙语
词数	791	758	721
注释者数量	2	3	2
原始一致性	0.80	0.89	0.87
Cohen/Fleiss Kappa	0.88	0.87	0.85
解释	几乎完美	几乎完美	几乎完美

命名实体识别

测量	德语	意大利语	西班牙语
词数	791	758	721
注释者数量	2	3	2
原始一致性	0.96	0.91	0.97
Cohen/Fleiss Kappa	0.67	0.42	0.51
解释	实质性	适度	适度

数据收集与预处理

推文随机从Twitter公共流中抽样。
预处理步骤包括：
1. 丢弃未被Twitter识别为目标语言的文件。
2. 丢弃少于5个词的推文。
3. 丢弃超过3个提及的推文。
4. 丢弃超过2个URL的推文。
5. 使用langid.py对推文文本进行语言识别，丢弃目标语言概率低于70%的推文。
6. URL和提及被替换为预定义的标记。
7. 推文通过twokenize进行分词。
8. 每种语言随机选择10,000条推文。

注释

词性标签预注释使用Pattern。
注释者使用网络应用程序进行文档级和词级注释。
注释指南可在Guidelines文件中找到。

词性标注实验

基线使用NLTK实现的UniGram标注器。
其他评估的POS标注器包括：
- Stanford POS
- RDRPOSTagger

语言	模型	准确率	评估词数
德语	基线	0.85	14106
德语	Stanford POS	0.69	47089
德语	RDRPOSTagger	0.70	47089
西班牙语	基线	0.89	31162
西班牙语	Standord POS	0.13	103752
意大利语	基线	0.90	36708
意大利语	RDRPOSTagger	0.44	123080

文件结构

语料库 - 可用（corpus_task/）

语料库包含推文及其注释，从原始数据中提取并转换为标准格式。
不包括用于计算一致性的重叠推文。

情感

情感文件为Tab分隔值格式，包含标题：id, text, label。
所有检测到的URL被替换为特殊标记TURLTURL，用户名被替换为TUSERUSER。

序列标注：词性和命名实体识别

词性和命名实体识别文件采用CONLL格式。
所有检测到的URL被替换为http://luisrei.com，用户名被替换为*@lmrei*。

搜集汇总

数据集介绍

构建方式

xLiMe Twitter Corpus通过从Twitter公共流中随机抽取推文，并经过一系列预处理步骤构建而成。首先，剔除非目标语言的推文；其次，过滤掉少于5个词或超过3个提及、2个URL的推文；接着，使用langid.py工具对推文进行语言识别，保留目标语言概率高于70%的推文；最后，替换URL和提及为特定标记，并使用twokenize进行分词。每种语言随机选取10,000条推文进行标注。

特点

该数据集涵盖德语、意大利语和西班牙语三种语言，并包含词性标注、命名实体识别和情感分析三种注释。数据集的独特之处在于其多语言覆盖和多层次的注释，特别是情感分析的细粒度标注，涵盖了正面、中性和负面情感。此外，数据集还提供了注释者之间的协议度量，帮助评估注释的一致性。

使用方法

用户可以通过下载zip文件或使用git克隆的方式获取数据集。数据集包含多个子目录，分别存储原始数据、代码、可用的语料库、协议度量和实验结果。用户可以使用提供的Python脚本进行数据处理和分析，特别是`code/extract_sentiment.py`和`code/xlime2conll.py`脚本，分别用于提取情感分析和词性/命名实体识别的语料库。此外，数据集还提供了POS标注实验的代码和结果，供研究者参考和进一步实验。

背景与挑战

背景概述

xLiMe Twitter Corpus是由Luis Rei、Simon Krek和Dunja Mladenić等人创建的多语言推文语料库，涵盖德语、意大利语和西班牙语。该语料库的核心研究问题包括词性标注、命名实体识别和情感分析，旨在为自然语言处理领域的研究提供丰富的多语言资源。通过人工标注和预处理，该语料库为多语言情感分析和词性标注等任务提供了高质量的数据支持，对推动多语言自然语言处理技术的发展具有重要意义。

当前挑战

xLiMe Twitter Corpus在构建过程中面临多重挑战。首先，多语言数据的标注一致性问题较为突出，尤其是在情感分析任务中，标注者之间的分歧较大，导致Cohen/Fleiss Kappa值较低。其次，推文数据的噪声问题，如语言识别错误、短文本和过多提及等，增加了数据预处理的复杂性。此外，不同语言的词性标注和命名实体识别任务中，现有工具的性能表现不尽如人意，尤其是在西班牙语和意大利语的标注任务中，准确率显著低于预期。

常用场景

经典使用场景

xLiMe Twitter Corpus 数据集的经典使用场景主要集中在自然语言处理领域，特别是在情感分析、词性标注和命名实体识别任务中。该数据集提供了多语言（德语、意大利语和西班牙语）的推文，并附有详细的标注信息，包括情感极性、词性标签和命名实体。这些标注信息使得研究者能够训练和评估多语言情感分析模型、词性标注模型以及命名实体识别模型，从而推动多语言自然语言处理技术的发展。

解决学术问题

xLiMe Twitter Corpus 数据集解决了多语言自然语言处理中的多个学术研究问题。首先，它为多语言情感分析提供了丰富的标注数据，帮助研究者探索不同语言中的情感表达差异。其次，数据集中的词性标注和命名实体信息为多语言词性标注和命名实体识别任务提供了基准数据，促进了跨语言自然语言处理技术的研究。此外，该数据集还为研究者提供了多语言标注的一致性分析，帮助评估不同语言标注任务的难度和一致性。

衍生相关工作

xLiMe Twitter Corpus 数据集的发布催生了许多相关的经典工作。首先，基于该数据集的情感分析任务，研究者提出了多种多语言情感分析模型，推动了跨语言情感分析技术的发展。其次，数据集中的词性标注信息被广泛用于多语言词性标注模型的训练和评估，促进了词性标注技术的进步。此外，命名实体识别任务也基于该数据集进行了深入研究，推动了多语言命名实体识别技术的发展。这些相关工作不仅丰富了自然语言处理领域的研究内容，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

目录	描述
data/	包含从注释工具导出的原始数据。
code/	包含导出原始数据和计算度量的代码。
corpus_task/	按语言和任务可用的非重叠语料库。
agreement/	重叠注释的格式，便于计算一致性。
experiments/	包含POS标注实验的结果。