X-Topic

Name: X-Topic
Creator: 卡迪夫大学
Published: 2024-10-04 09:37:26
License: 暂无描述

arXiv2024-10-04 更新2024-10-08 收录

下载链接：

https://huggingface.co/datasets/cardiffnlp/tweet_topic_multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

X-Topic是由卡迪夫大学创建的多语言推文主题分类数据集，涵盖英语、西班牙语、日语和希腊语四种语言。该数据集包含4000条推文，每条推文被标记为19个预定义主题中的一个或多个，旨在解决社交媒体中多语言内容分类的挑战。数据集的创建过程包括推文收集、预处理和多轮人工标注，确保了数据的质量和多样性。X-Topic主要应用于跨语言分析、多语言模型开发和在线对话研究，为研究人员提供了一个宝贵的资源。

X-Topic is a multilingual tweet topic classification dataset developed by Cardiff University. It covers four languages including English, Spanish, Japanese and Greek, and contains 4000 tweets in total. Each tweet is labeled with one or more of 19 pre-defined topics, aiming to address the challenges of multilingual content classification on social media. The dataset is constructed through tweet collection, preprocessing and multiple rounds of manual annotation, which ensures the data quality and diversity. X-Topic is mainly applied in cross-lingual analysis, multilingual model development and online conversation research, providing a valuable resource for researchers.

提供机构：

卡迪夫大学

创建时间：

2024-10-04

原始信息汇总

数据集卡片：cardiffnlp/tweet_topic_multilingual

数据集描述

数据集名称: X-Topic
领域: X (Twitter)
类别数量: 19

数据集概述

X-Topic 是一个基于 X（前 Twitter）的多语言主题分类数据集，包含 19 个主题标签。该数据集的任务是多标签分类，推文可用四种语言：英语、日语、西班牙语和希腊语。数据集包含 4,000 条推文（每种语言 1,000 条），收集于 2021 年 9 月至 2022 年 8 月之间。该数据集使用与 TweetTopic 相同的分类法。

数据集结构

数据分割

数据集包括以下分割：

en: 英语
es: 西班牙语
ja: 日语
gr: 希腊语
en_2022: 2022 年的英语数据（TweetTopic）
mix: 混合语言数据
mix_2022: 包含 2022 年 TweetTopic 的混合语言数据
交叉验证分割:
- en_cross_validation_0 至 en_cross_validation_4: 英语交叉验证分割
- es_cross_validation_0 至 es_cross_validation_4: 西班牙语交叉验证分割
- ja_cross_validation_0 至 ja_cross_validation_4: 日语交叉验证分割
- gr_cross_validation_0 至 gr_cross_validation_4: 希腊语交叉验证分割

数据实例

train 的一个示例如下： python { "id": 1470030676816797696, "text": "made a matcha latte, black tea and green juice until i break my fast at 1!! my body and skin are thanking me", "label": [0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "label_name": ["Diaries & Daily Life", "Fitness & Health", "Food & Dining"], "label_name_flatten": "Diaries & Daily Life, Fitness & Health, Food & Dining" }

0: arts_&_culture	5: fashion_&_style	10: learning_&_educational	15: science_&_technology
1: business_&_entrepreneurs	6: film_tv_&_video	11: music	16: sports
2: celebrity_&_pop_culture	7: fitness_&_health	12: news_&_social_concern	17: travel_&_adventure
3: diaries_&_daily_life	8: food_&_dining	13: other_hobbies	18: youth_&_student_life
4: family	9: gaming	14: relationships

英语的标注说明可以在这里找到。

引用信息

TBA

搜集汇总

数据集介绍

构建方式

X-Topic数据集的构建基于一个初始的19个主题的分类体系，该体系最初由Antypas等人（2022）提出。数据集包括来自四种不同语言（英语、西班牙语、日语和希腊语）的推文，这些推文通过Twitter API收集，每种语言大约收集了220,000条推文。收集过程中未使用关键词过滤，以确保推文内容的多样性。收集后，推文经过多步预处理，包括语言检测、去除不完整或滥用的推文、去重、去除包含过多提及和表情符号的推文，以及去除包含URL的推文。最终，每种语言的推文中抽取了1,000条进行标注。标注过程严格遵循TweetTopic的标注流程，每条推文由五名标注者进行标注，只有在至少两名标注者达成一致时，才会分配主题标签。

特点

X-Topic数据集的主要特点在于其多语言性和主题多样性。数据集涵盖了四种语言的推文，每种语言的推文都经过精心筛选和标注，确保了数据的高质量和代表性。此外，数据集包含19个不同的主题，这些主题涵盖了社交媒体内容的广泛领域，从新闻和社会关注到娱乐和日常生活。这种多样性使得X-Topic成为研究跨语言主题分类、开发多语言模型以及计算科学家研究在线对话的宝贵资源。

使用方法

X-Topic数据集可用于多种自然语言处理任务，包括但不限于多语言主题分类、跨语言模型评估和在线对话分析。研究者和开发者可以使用该数据集来训练和评估多语言模型，特别是在零样本、少样本、单语言、跨语言和多语言设置下。数据集的开放性使得研究人员可以自由地探索不同的模型架构和实验设置，从而推动多语言主题分类技术的发展。此外，X-Topic还提供了详细的标注指南和预处理步骤，帮助用户更好地理解和利用数据集。

背景与挑战

背景概述

在社交媒体的动态领域中，每日讨论的话题跨越了语言界限，呈现出多样化的特征。然而，理解和分类这些多语言内容的传统技术，如主题建模，往往难以适应这种多语言的多样性。为此，Antypas等人于2022年引入了X-Topic数据集，这是一个包含英语、西班牙语、日语和希腊语四种语言的推文主题分类数据集。该数据集旨在解决多语言社交媒体数据标签不足的问题，并推动多语言主题分类新方法的发展。X-Topic数据集不仅为跨语言分析提供了宝贵的资源，还为开发健壮的多语言模型和研究在线对话的计算科学家提供了支持。

当前挑战

X-Topic数据集面临的挑战主要集中在两个方面。首先，多语言内容的分类问题本身就具有复杂性，需要模型能够理解和适应不同语言的细微差别。其次，数据集的构建过程中，如何确保高质量的标注和有效的语言识别是一个重要难题。此外，数据集的多样性和不平衡性也给模型的训练和评估带来了额外的挑战。为了应对这些挑战，研究者们需要开发新的方法和技术，以提高多语言主题分类的准确性和效率。

常用场景

经典使用场景

X-Topic数据集在跨语言主题分类中展现了其经典应用场景。该数据集汇集了英语、西班牙语、日语和希腊语四种语言的推文，为研究人员提供了丰富的多语言内容。通过X-Topic，研究者能够开发和评估多语言模型，特别是在社交媒体内容的主题分类任务中。这一数据集的引入，使得跨语言分析和多语言模型的构建成为可能，为计算语言学和在线对话研究提供了宝贵的资源。

衍生相关工作

X-Topic数据集的发布催生了多项相关研究工作。研究者们基于该数据集开发了多种多语言主题分类模型，如XLM-R和XLM-T，这些模型在跨语言和多语言任务中表现优异。此外，X-Topic还激发了对多语言社交媒体数据处理方法的深入探讨，推动了多语言情感分析、跨语言信息检索等领域的研究进展。这些衍生工作不仅丰富了多语言自然语言处理的工具库，也为实际应用提供了强有力的技术支持。

数据集最近研究