five

X-Topic|多语言分类数据集|社交媒体分析数据集

收藏
arXiv2024-10-04 更新2024-10-08 收录
多语言分类
社交媒体分析
下载链接:
https://huggingface.co/datasets/cardiffnlp/tweet_topic_multilingual
下载链接
链接失效反馈
资源简介:
X-Topic是由卡迪夫大学创建的多语言推文主题分类数据集,涵盖英语、西班牙语、日语和希腊语四种语言。该数据集包含4000条推文,每条推文被标记为19个预定义主题中的一个或多个,旨在解决社交媒体中多语言内容分类的挑战。数据集的创建过程包括推文收集、预处理和多轮人工标注,确保了数据的质量和多样性。X-Topic主要应用于跨语言分析、多语言模型开发和在线对话研究,为研究人员提供了一个宝贵的资源。
提供机构:
卡迪夫大学
创建时间:
2024-10-04
原始信息汇总

数据集卡片:cardiffnlp/tweet_topic_multilingual

数据集描述

  • 数据集名称: X-Topic
  • 领域: X (Twitter)
  • 类别数量: 19

数据集概述

X-Topic 是一个基于 X(前 Twitter)的多语言主题分类数据集,包含 19 个主题标签。该数据集的任务是多标签分类,推文可用四种语言:英语、日语、西班牙语和希腊语。数据集包含 4,000 条推文(每种语言 1,000 条),收集于 2021 年 9 月至 2022 年 8 月之间。该数据集使用与 TweetTopic 相同的分类法。

数据集结构

数据分割

数据集包括以下分割:

  • en: 英语
  • es: 西班牙语
  • ja: 日语
  • gr: 希腊语
  • en_2022: 2022 年的英语数据(TweetTopic)
  • mix: 混合语言数据
  • mix_2022: 包含 2022 年 TweetTopic 的混合语言数据
  • 交叉验证分割:
    • en_cross_validation_0en_cross_validation_4: 英语交叉验证分割
    • es_cross_validation_0es_cross_validation_4: 西班牙语交叉验证分割
    • ja_cross_validation_0ja_cross_validation_4: 日语交叉验证分割
    • gr_cross_validation_0gr_cross_validation_4: 希腊语交叉验证分割

数据实例

train 的一个示例如下: python { "id": 1470030676816797696, "text": "made a matcha latte, black tea and green juice until i break my fast at 1!! my body and skin are thanking me", "label": [0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "label_name": ["Diaries & Daily Life", "Fitness & Health", "Food & Dining"], "label_name_flatten": "Diaries & Daily Life, Fitness & Health, Food & Dining" }

标签

0: arts_&_culture 5: fashion_&_style 10: learning_&_educational 15: science_&_technology
1: business_&_entrepreneurs 6: film_tv_&_video 11: music 16: sports
2: celebrity_&_pop_culture 7: fitness_&_health 12: news_&_social_concern 17: travel_&_adventure
3: diaries_&_daily_life 8: food_&_dining 13: other_hobbies 18: youth_&_student_life
4: family 9: gaming 14: relationships

英语的标注说明可以在 这里 找到。

引用信息

TBA

AI搜集汇总
数据集介绍
main_image_url
构建方式
X-Topic数据集的构建基于一个初始的19个主题的分类体系,该体系最初由Antypas等人(2022)提出。数据集包括来自四种不同语言(英语、西班牙语、日语和希腊语)的推文,这些推文通过Twitter API收集,每种语言大约收集了220,000条推文。收集过程中未使用关键词过滤,以确保推文内容的多样性。收集后,推文经过多步预处理,包括语言检测、去除不完整或滥用的推文、去重、去除包含过多提及和表情符号的推文,以及去除包含URL的推文。最终,每种语言的推文中抽取了1,000条进行标注。标注过程严格遵循TweetTopic的标注流程,每条推文由五名标注者进行标注,只有在至少两名标注者达成一致时,才会分配主题标签。
特点
X-Topic数据集的主要特点在于其多语言性和主题多样性。数据集涵盖了四种语言的推文,每种语言的推文都经过精心筛选和标注,确保了数据的高质量和代表性。此外,数据集包含19个不同的主题,这些主题涵盖了社交媒体内容的广泛领域,从新闻和社会关注到娱乐和日常生活。这种多样性使得X-Topic成为研究跨语言主题分类、开发多语言模型以及计算科学家研究在线对话的宝贵资源。
使用方法
X-Topic数据集可用于多种自然语言处理任务,包括但不限于多语言主题分类、跨语言模型评估和在线对话分析。研究者和开发者可以使用该数据集来训练和评估多语言模型,特别是在零样本、少样本、单语言、跨语言和多语言设置下。数据集的开放性使得研究人员可以自由地探索不同的模型架构和实验设置,从而推动多语言主题分类技术的发展。此外,X-Topic还提供了详细的标注指南和预处理步骤,帮助用户更好地理解和利用数据集。
背景与挑战
背景概述
在社交媒体的动态领域中,每日讨论的话题跨越了语言界限,呈现出多样化的特征。然而,理解和分类这些多语言内容的传统技术,如主题建模,往往难以适应这种多语言的多样性。为此,Antypas等人于2022年引入了X-Topic数据集,这是一个包含英语、西班牙语、日语和希腊语四种语言的推文主题分类数据集。该数据集旨在解决多语言社交媒体数据标签不足的问题,并推动多语言主题分类新方法的发展。X-Topic数据集不仅为跨语言分析提供了宝贵的资源,还为开发健壮的多语言模型和研究在线对话的计算科学家提供了支持。
当前挑战
X-Topic数据集面临的挑战主要集中在两个方面。首先,多语言内容的分类问题本身就具有复杂性,需要模型能够理解和适应不同语言的细微差别。其次,数据集的构建过程中,如何确保高质量的标注和有效的语言识别是一个重要难题。此外,数据集的多样性和不平衡性也给模型的训练和评估带来了额外的挑战。为了应对这些挑战,研究者们需要开发新的方法和技术,以提高多语言主题分类的准确性和效率。
常用场景
经典使用场景
X-Topic数据集在跨语言主题分类中展现了其经典应用场景。该数据集汇集了英语、西班牙语、日语和希腊语四种语言的推文,为研究人员提供了丰富的多语言内容。通过X-Topic,研究者能够开发和评估多语言模型,特别是在社交媒体内容的主题分类任务中。这一数据集的引入,使得跨语言分析和多语言模型的构建成为可能,为计算语言学和在线对话研究提供了宝贵的资源。
衍生相关工作
X-Topic数据集的发布催生了多项相关研究工作。研究者们基于该数据集开发了多种多语言主题分类模型,如XLM-R和XLM-T,这些模型在跨语言和多语言任务中表现优异。此外,X-Topic还激发了对多语言社交媒体数据处理方法的深入探讨,推动了多语言情感分析、跨语言信息检索等领域的研究进展。这些衍生工作不仅丰富了多语言自然语言处理的工具库,也为实际应用提供了强有力的技术支持。
数据集最近研究
最新研究方向
在社交媒体的动态领域中,X-Topic数据集的最新研究方向聚焦于多语言主题分类的挑战。研究者们正致力于开发和优化跨语言模型,以应对不同语言间内容分类的复杂性。这一领域的研究不仅推动了多语言模型的技术进步,还为社会媒体内容的深度分析提供了新的工具和方法。通过利用X-Topic数据集,研究者们能够更精确地理解和分类多语言社交媒体内容,从而为跨文化交流和全球信息共享提供了重要的技术支持。
相关研究论文
  • 1
    Multilingual Topic Classification in X: Dataset and Analysis卡迪夫大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录