five

xLiMe Twitter Corpus

收藏
github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/lrei/xlime_twitter_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
xLiMe Twitter Corpus是一个包含德语、意大利语和西班牙语的推文数据集,包含词性标签、命名实体和情感分析等标注。

The xLiMe Twitter Corpus is a dataset comprising tweets in German, Italian, and Spanish, annotated with part-of-speech tags, named entities, and sentiment analysis.
创建时间:
2015-10-30
原始信息汇总

数据集概述

名称: xLiMe Twitter Corpus

作者: Luis Rei, Simon Krek, Dunja Mladenić

联系方式: {first.last}@ijs.si

语言:

  • 德语
  • 意大利语
  • 西班牙语

注释类型:

  • 词性标签
  • 命名实体
  • 情感(极性,消息级别)

数据集统计

总体数据

  • 数据集包含注释的推文。
  • 部分推文由所有工作在该语言的注释者标记。

语言统计

语言 注释者数量 推文数量 词数 重叠推文数量 重叠词数
德语 2 3447 58264 47 791
意大利语 3 8646 154371 45 758
西班牙语 2 7713 133906 45 721

去除重叠后的数据

语言 推文数量 词数
德语 3400 60873
意大利语 8601 162269
西班牙语 7668 140852

情感分析

语言 积极 中性 消极 总计
德语 334 2924 142 3400
意大利语 554 7524 523 8601
西班牙语 388 7083 197 7668

词性标注

标签 德语 意大利语 西班牙语
形容词 2514 7684 5741
介词 4333 14960 13467
副词 4173 8476 6116
连词 1576 6737 6684
续词 918 4227 3422
限定词 2990 9811 10037
表情符号 449 1076 951
标签 1895 3035 1805
感叹词 225 1427 1109
提及 1984 6519 9070
名词 11057 30759 23230
数词 1176 2550 1568
其他 1936 1503 3033
粒子 638 352 18
代词 4530 7737 10333
标点符号 8650 20529 14102
URL 1923 4494 3019
动词 6506 21793 19460

命名实体识别

实体类型 德语 意大利语 西班牙语
地点 742 2087 1441
杂项 995 5802 775
组织 350 1150 836
人物 757 3701 2321
总计 2844 12740 5373

注释一致性测量

情感分析

测量 德语 意大利语 西班牙语
文档数量 47 45 45
注释者数量 2 3 2
原始一致性 0.83 0.59 0.73
Cohen/Fleiss Kappa -0.07 0.02 0.37
解释 轻微 公平

词性标注

测量 德语 意大利语 西班牙语
词数 791 758 721
注释者数量 2 3 2
原始一致性 0.80 0.89 0.87
Cohen/Fleiss Kappa 0.88 0.87 0.85
解释 几乎完美 几乎完美 几乎完美

命名实体识别

测量 德语 意大利语 西班牙语
词数 791 758 721
注释者数量 2 3 2
原始一致性 0.96 0.91 0.97
Cohen/Fleiss Kappa 0.67 0.42 0.51
解释 实质性 适度 适度

数据收集与预处理

  • 推文随机从Twitter公共流中抽样。
  • 预处理步骤包括:
    1. 丢弃未被Twitter识别为目标语言的文件。
    2. 丢弃少于5个词的推文。
    3. 丢弃超过3个提及的推文。
    4. 丢弃超过2个URL的推文。
    5. 使用langid.py对推文文本进行语言识别,丢弃目标语言概率低于70%的推文。
    6. URL和提及被替换为预定义的标记。
    7. 推文通过twokenize进行分词。
    8. 每种语言随机选择10,000条推文。

注释

  • 词性标签预注释使用Pattern。
  • 注释者使用网络应用程序进行文档级和词级注释。
  • 注释指南可在Guidelines文件中找到。

词性标注实验

  • 基线使用NLTK实现的UniGram标注器。
  • 其他评估的POS标注器包括:
    • Stanford POS
    • RDRPOSTagger
语言 模型 准确率 评估词数
德语 基线 0.85 14106
德语 Stanford POS 0.69 47089
德语 RDRPOSTagger 0.70 47089
西班牙语 基线 0.89 31162
西班牙语 Standord POS 0.13 103752
意大利语 基线 0.90 36708
意大利语 RDRPOSTagger 0.44 123080

文件结构

目录

目录 描述
data/ 包含从注释工具导出的原始数据。
code/ 包含导出原始数据和计算度量的代码。
corpus_task/ 按语言和任务可用的非重叠语料库。
agreement/ 重叠注释的格式,便于计算一致性。
experiments/ 包含POS标注实验的结果。

语料库 - 可用(corpus_task/)

  • 语料库包含推文及其注释,从原始数据中提取并转换为标准格式。
  • 不包括用于计算一致性的重叠推文。
情感
  • 情感文件为Tab分隔值格式,包含标题:id, text, label。
  • 所有检测到的URL被替换为特殊标记TURLTURL,用户名被替换为TUSERUSER
序列标注:词性和命名实体识别
  • 词性和命名实体识别文件采用CONLL格式。
  • 所有检测到的URL被替换为http://luisrei.com,用户名被替换为*@lmrei*。
搜集汇总
数据集介绍
main_image_url
构建方式
xLiMe Twitter Corpus通过从Twitter公共流中随机抽取推文,并经过一系列预处理步骤构建而成。首先,剔除非目标语言的推文;其次,过滤掉少于5个词或超过3个提及、2个URL的推文;接着,使用langid.py工具对推文进行语言识别,保留目标语言概率高于70%的推文;最后,替换URL和提及为特定标记,并使用twokenize进行分词。每种语言随机选取10,000条推文进行标注。
特点
该数据集涵盖德语、意大利语和西班牙语三种语言,并包含词性标注、命名实体识别和情感分析三种注释。数据集的独特之处在于其多语言覆盖和多层次的注释,特别是情感分析的细粒度标注,涵盖了正面、中性和负面情感。此外,数据集还提供了注释者之间的协议度量,帮助评估注释的一致性。
使用方法
用户可以通过下载zip文件或使用git克隆的方式获取数据集。数据集包含多个子目录,分别存储原始数据、代码、可用的语料库、协议度量和实验结果。用户可以使用提供的Python脚本进行数据处理和分析,特别是`code/extract_sentiment.py`和`code/xlime2conll.py`脚本,分别用于提取情感分析和词性/命名实体识别的语料库。此外,数据集还提供了POS标注实验的代码和结果,供研究者参考和进一步实验。
背景与挑战
背景概述
xLiMe Twitter Corpus是由Luis Rei、Simon Krek和Dunja Mladenić等人创建的多语言推文语料库,涵盖德语、意大利语和西班牙语。该语料库的核心研究问题包括词性标注、命名实体识别和情感分析,旨在为自然语言处理领域的研究提供丰富的多语言资源。通过人工标注和预处理,该语料库为多语言情感分析和词性标注等任务提供了高质量的数据支持,对推动多语言自然语言处理技术的发展具有重要意义。
当前挑战
xLiMe Twitter Corpus在构建过程中面临多重挑战。首先,多语言数据的标注一致性问题较为突出,尤其是在情感分析任务中,标注者之间的分歧较大,导致Cohen/Fleiss Kappa值较低。其次,推文数据的噪声问题,如语言识别错误、短文本和过多提及等,增加了数据预处理的复杂性。此外,不同语言的词性标注和命名实体识别任务中,现有工具的性能表现不尽如人意,尤其是在西班牙语和意大利语的标注任务中,准确率显著低于预期。
常用场景
经典使用场景
xLiMe Twitter Corpus 数据集的经典使用场景主要集中在自然语言处理领域,特别是在情感分析、词性标注和命名实体识别任务中。该数据集提供了多语言(德语、意大利语和西班牙语)的推文,并附有详细的标注信息,包括情感极性、词性标签和命名实体。这些标注信息使得研究者能够训练和评估多语言情感分析模型、词性标注模型以及命名实体识别模型,从而推动多语言自然语言处理技术的发展。
解决学术问题
xLiMe Twitter Corpus 数据集解决了多语言自然语言处理中的多个学术研究问题。首先,它为多语言情感分析提供了丰富的标注数据,帮助研究者探索不同语言中的情感表达差异。其次,数据集中的词性标注和命名实体信息为多语言词性标注和命名实体识别任务提供了基准数据,促进了跨语言自然语言处理技术的研究。此外,该数据集还为研究者提供了多语言标注的一致性分析,帮助评估不同语言标注任务的难度和一致性。
衍生相关工作
xLiMe Twitter Corpus 数据集的发布催生了许多相关的经典工作。首先,基于该数据集的情感分析任务,研究者提出了多种多语言情感分析模型,推动了跨语言情感分析技术的发展。其次,数据集中的词性标注信息被广泛用于多语言词性标注模型的训练和评估,促进了词性标注技术的进步。此外,命名实体识别任务也基于该数据集进行了深入研究,推动了多语言命名实体识别技术的发展。这些相关工作不仅丰富了自然语言处理领域的研究内容,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作