gentilrenard/lmd_ukraine_comments
收藏Hugging Face2024-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gentilrenard/lmd_ukraine_comments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从《Le Monde》关于乌克兰战争的文章中提取的175k条评论,时间跨度为战争的第一年(2022年2月至2023年)。其中,约500条评论被手动标记为三类:0. 明确支持乌克兰,1. 支持俄罗斯,2. 其他。数据集的结构包括两个特征:`text`(评论文本)和`label`(评论标签)。数据集分为训练集、验证集和未标记数据集,分别包含323、139和174,891个样本。数据集的语言为法语,任务类别为文本分类,大小类别为100K到1M之间。
该数据集包含了从《Le Monde》关于乌克兰战争的文章中提取的175k条评论,时间跨度为战争的第一年(2022年2月至2023年)。其中,约500条评论被手动标记为三类:0. 明确支持乌克兰,1. 支持俄罗斯,2. 其他。数据集的结构包括两个特征:`text`(评论文本)和`label`(评论标签)。数据集分为训练集、验证集和未标记数据集,分别包含323、139和174,891个样本。数据集的语言为法语,任务类别为文本分类,大小类别为100K到1M之间。
提供机构:
gentilrenard
原始信息汇总
Comments under Le Monde Ukraine War Articles (1 Year)
描述
该数据集包含从《Le Monde》关于乌克兰战争的第一年(2022年2月至2023年)的文章中提取的17.5万条评论。其中,约500条评论被手动标记为以下类别:0. 明确支持乌克兰,1. 亲俄罗斯,2. 其他。
数据集结构
特征
text: 评论文本(字符串)。label: 评论的标签(整数)。标签如下:- 0: 支持乌克兰
- 1: 亲俄罗斯
- 2: 其他
- 4: 无标签(未标记数据)。
分割
训练集和验证集是手动标记的。未标记数据可用于知识蒸馏等。
train: 323个样本。validation: 139个样本。unlabeled: 174,891个样本。
附加信息
- 许可证: MIT许可证
- 语言: 法语
- 任务类别: 文本分类
- 大小类别: 100K < n < 1M



