X-Topic|多语言分类数据集|社交媒体分析数据集
收藏数据集卡片:cardiffnlp/tweet_topic_multilingual
数据集描述
- 数据集名称: X-Topic
- 领域: X (Twitter)
- 类别数量: 19
数据集概述
X-Topic 是一个基于 X(前 Twitter)的多语言主题分类数据集,包含 19 个主题标签。该数据集的任务是多标签分类,推文可用四种语言:英语、日语、西班牙语和希腊语。数据集包含 4,000 条推文(每种语言 1,000 条),收集于 2021 年 9 月至 2022 年 8 月之间。该数据集使用与 TweetTopic 相同的分类法。
数据集结构
数据分割
数据集包括以下分割:
- en: 英语
- es: 西班牙语
- ja: 日语
- gr: 希腊语
- en_2022: 2022 年的英语数据(TweetTopic)
- mix: 混合语言数据
- mix_2022: 包含 2022 年 TweetTopic 的混合语言数据
- 交叉验证分割:
- en_cross_validation_0 至 en_cross_validation_4: 英语交叉验证分割
- es_cross_validation_0 至 es_cross_validation_4: 西班牙语交叉验证分割
- ja_cross_validation_0 至 ja_cross_validation_4: 日语交叉验证分割
- gr_cross_validation_0 至 gr_cross_validation_4: 希腊语交叉验证分割
数据实例
train
的一个示例如下:
python
{
"id": 1470030676816797696,
"text": "made a matcha latte, black tea and green juice until i break my fast at 1!! my body and skin are thanking me",
"label": [0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
"label_name": ["Diaries & Daily Life", "Fitness & Health", "Food & Dining"],
"label_name_flatten": "Diaries & Daily Life, Fitness & Health, Food & Dining"
}
标签
0: arts_&_culture | 5: fashion_&_style | 10: learning_&_educational | 15: science_&_technology |
---|---|---|---|
1: business_&_entrepreneurs | 6: film_tv_&_video | 11: music | 16: sports |
2: celebrity_&_pop_culture | 7: fitness_&_health | 12: news_&_social_concern | 17: travel_&_adventure |
3: diaries_&_daily_life | 8: food_&_dining | 13: other_hobbies | 18: youth_&_student_life |
4: family | 9: gaming | 14: relationships |
英语的标注说明可以在 这里 找到。
引用信息
TBA

- 1Multilingual Topic Classification in X: Dataset and Analysis卡迪夫大学 · 2024年
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录