five

gentilrenard/lmd_ukraine_comments

收藏
Hugging Face2024-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gentilrenard/lmd_ukraine_comments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从《Le Monde》关于乌克兰战争的文章中提取的175k条评论,时间跨度为战争的第一年(2022年2月至2023年)。其中,约500条评论被手动标记为三类:0. 明确支持乌克兰,1. 支持俄罗斯,2. 其他。数据集的结构包括两个特征:`text`(评论文本)和`label`(评论标签)。数据集分为训练集、验证集和未标记数据集,分别包含323、139和174,891个样本。数据集的语言为法语,任务类别为文本分类,大小类别为100K到1M之间。

该数据集包含了从《Le Monde》关于乌克兰战争的文章中提取的175k条评论,时间跨度为战争的第一年(2022年2月至2023年)。其中,约500条评论被手动标记为三类:0. 明确支持乌克兰,1. 支持俄罗斯,2. 其他。数据集的结构包括两个特征:`text`(评论文本)和`label`(评论标签)。数据集分为训练集、验证集和未标记数据集,分别包含323、139和174,891个样本。数据集的语言为法语,任务类别为文本分类,大小类别为100K到1M之间。
提供机构:
gentilrenard
原始信息汇总

Comments under Le Monde Ukraine War Articles (1 Year)

描述

该数据集包含从《Le Monde》关于乌克兰战争的第一年(2022年2月至2023年)的文章中提取的17.5万条评论。其中,约500条评论被手动标记为以下类别:0. 明确支持乌克兰,1. 亲俄罗斯,2. 其他。

数据集结构

特征

  • text: 评论文本(字符串)。
  • label: 评论的标签(整数)。标签如下:
    • 0: 支持乌克兰
    • 1: 亲俄罗斯
    • 2: 其他
    • 4: 无标签(未标记数据)。

分割

训练集和验证集是手动标记的。未标记数据可用于知识蒸馏等。

  • train: 323个样本。
  • validation: 139个样本。
  • unlabeled: 174,891个样本。

附加信息

  • 许可证: MIT许可证
  • 语言: 法语
  • 任务类别: 文本分类
  • 大小类别: 100K < n < 1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作