Latvian Twitter Eater Corpus

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/Usprogis/Latvian-Twitter-Eater-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库包含拉脱维亚语的推特数据，涵盖了从全语料库到特定任务的子语料库。子语料库包括问题与回答、情感标注、翻译测试以及图像与文本关系等，用于语言分析和模型训练。

This corpus contains Latvian Twitter data, covering the full corpus and task-specific subcorpora. The subcorpora include question-answering, sentiment annotation, translation testing, and image-text relation tasks, among others, and are intended for linguistic analysis and model training.

创建时间：

2020-05-25

原始信息汇总

Latvian Twitter Eater Corpus

数据集结构

full-corpus - 完整语料库，包含多种格式。
sub-corpora - 从完整语料库中派生的特定任务子语料库。
scripts - 用于数据准备和分析的脚本。

完整语料库

包含LTEC，由于Twitter数据使用权利，语料库中的所有信息被隐藏，仅提供推文ID。
如需获取完整语料库信息，请联系仓库所有者。

子语料库

ltec-questions-answers.json - 包含表达问题的推文及其回复。
ltec-answers-questions.json - 包含表达问题并作为其他推文回复的推文，以及它们回复的推文。
ltec-sentiment-annotated.json - 包含人工标注情感的推文。
ltec-sentiment-automatic.json - 包含基于表情符号和媒体/餐厅用户的自动分配情感的推文。
ltec-translation-test.json - 包含手动翻译成英文的推文，以及两个参考翻译。
ltec-image-text-relation.json - 包含附带图片的推文，以及人工标注的文本与附带图片之间的关系。

脚本

analysis - 用于语料库分析的脚本。
data-preparation - 用于从MySQL数据库数据创建语料库的脚本。
experiments - 用于数据准备和训练QA模型及情感分析的脚本。

引用

Uga Sproģis 和 Matīss Rikters (2020). "What Can We Learn From Almost a Decade of Food Tweets." 在第九届人类语言技术会议 - 波罗的海视角（Baltic HLT 2020）（2020年）。
Matīss Rikters, Edison Marrese-Taylor, Rinalds Vīksna (2024). "Annotations for Exploring Food Tweets from Multiple Aspects." 在2024年计算语言学、语言资源和评估联合国际会议（LREC-COLING 2024）（2024年）。

搜集汇总

数据集介绍

构建方式

在构建Latvian Twitter Eater Corpus（LTEC）时，研究者们通过Twitter API收集了大量拉脱维亚语的推文，并将其整理成一个完整的语料库。为了保护Twitter数据的使用权，仅公开了推文的ID，而完整信息需通过联系仓库所有者获取。此外，研究者们还从完整语料库中提取了多个任务特定的子语料库，包括问题与回答、情感标注、翻译测试以及图像与文本关系等，这些子语料库通过手动和自动方式进行标注，以支持不同的研究任务。

特点

Latvian Twitter Eater Corpus（LTEC）的显著特点在于其多样的子语料库设计，涵盖了问题与回答、情感分析、翻译测试以及图像与文本关系等多个研究领域。这些子语料库不仅包括自动标注的数据，还包含了经过人工校验的高质量标注数据，确保了数据集的可靠性和多样性。此外，LTEC还提供了丰富的脚本资源，用于数据准备、分析和实验，极大地便利了研究者对该数据集的利用。

使用方法

使用Latvian Twitter Eater Corpus（LTEC）时，研究者可以通过访问GitHub仓库获取数据集的结构和脚本资源。对于完整语料库的信息，需联系仓库所有者以获取权限。研究者可以根据需求选择合适的子语料库进行分析，如情感分析、问题回答等。此外，仓库中提供的Python和Shell脚本可用于数据准备、分析和模型训练，帮助研究者快速上手并开展相关研究。在使用过程中，请务必引用相关文献以确保学术诚信。

背景与挑战

背景概述

拉脱维亚Twitter食客语料库（Latvian Twitter Eater Corpus, LTEC）是由Uga Sproģis和Matīss Rikters于2020年创建的，旨在通过分析近十年来的食品相关推文，揭示社交媒体在食品文化传播中的作用。该语料库不仅包含了原始推文数据，还通过Twitter API收集了特定任务的子语料库，如问题与回答、情感标注等。这一研究不仅丰富了拉脱维亚语的自然语言处理资源，也为全球社交媒体数据分析提供了宝贵的参考。

当前挑战

LTEC在构建过程中面临的主要挑战包括：1) 数据隐私与使用权限问题，由于Twitter的数据使用政策，原始推文信息被隐藏，仅提供推文ID；2) 情感标注的准确性，自动情感标注依赖于表情符号，而手动标注则需要大量的人力资源；3) 多语言翻译的准确性，特别是从拉脱维亚语到英语的翻译，需要高质量的翻译参考。此外，如何从海量的社交媒体数据中提取有价值的信息，并确保分析结果的可靠性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

在自然语言处理领域，Latvian Twitter Eater Corpus（LTEC）被广泛用于情感分析和问答系统的研究。该数据集包含了大量拉脱维亚语的推文，其中部分推文已被标注情感，为研究人员提供了宝贵的训练和测试资源。此外，数据集中的问答子集为构建和评估问答模型提供了丰富的语料，使得研究者能够在多语言环境下探索问答系统的性能。

实际应用

在实际应用中，LTEC数据集为社交媒体分析、客户服务自动化和情感监测等领域提供了重要的支持。例如，企业可以利用该数据集训练情感分析模型，以实时监测和分析社交媒体上的用户反馈，从而改进产品和服务。此外，问答系统的应用可以提升客户服务的效率和用户体验，特别是在多语言环境中。

衍生相关工作

基于LTEC数据集，研究者们开展了一系列相关工作，包括多语言情感分析模型的开发、问答系统的优化以及跨语言情感迁移研究。例如，Uga Sproģis和Matīss Rikters在2020年的Baltic HLT会议上发表的研究，探讨了从近十年食品推文中学习到的知识。此外，Matīss Rikters等人在2024年的LREC-COLING会议上提出了从多个方面探索食品推文的标注方法，进一步丰富了该数据集的应用和研究价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集