five

OFAI/omp

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/OFAI/omp
下载链接
链接失效反馈
官方服务:
资源简介:
“One Million Posts”数据集是一个包含用户评论的标注数据集,这些评论来自奥地利报纸网站(德语)。数据集包含2015年6月1日至2016年5月31日期间的11,773条标注评论和1,000,000条未标注评论。标注由报纸的专业论坛版主完成。数据集包含每个帖子的ID、文章ID、标题、正文、用户ID、时间戳、父帖子、状态、正面投票数、负面投票数等信息。此外,数据集还包含每篇文章的ID、发布日期、主题路径、标题和正文。标注类别包括情感(负面/中性/正面)、离题、不当内容、歧视性内容、反馈、个人故事和使用的论据等。

“One Million Posts”数据集是一个包含用户评论的标注数据集,这些评论来自奥地利报纸网站(德语)。数据集包含2015年6月1日至2016年5月31日期间的11,773条标注评论和1,000,000条未标注评论。标注由报纸的专业论坛版主完成。数据集包含每个帖子的ID、文章ID、标题、正文、用户ID、时间戳、父帖子、状态、正面投票数、负面投票数等信息。此外,数据集还包含每篇文章的ID、发布日期、主题路径、标题和正文。标注类别包括情感(负面/中性/正面)、离题、不当内容、歧视性内容、反馈、个人故事和使用的论据等。
提供机构:
OFAI
原始信息汇总

数据集概述

名称: One Million Posts Corpus

语言: 德语

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

多语言性: 单语种

数据集大小: 10K<n<100K

源数据: 原始数据

任务类别: 文本分类

任务ID: 情感分类

数据集结构

数据实例

  • posts_labeled: 包含40,567个标注实例,每个实例包括帖子ID、文章ID、用户ID、创建时间、状态、标题、正文、正投票数、负投票数及分类标签。
  • posts_unlabeled: 包含1,000,000个未标注实例,每个实例包括帖子ID、文章ID、用户ID、创建时间、状态、标题、正文、正投票数、负投票数。
  • articles: 包含12,087个文章实例,每个实例包括文章ID、发布日期、标题、正文。

数据字段

  • ID_Post: 帖子ID
  • ID_Parent_Post: 父帖子ID
  • ID_Article: 文章ID
  • ID_User: 用户ID
  • Headline: 标题
  • Body: 正文
  • CreatedAt: 创建时间
  • Status: 状态(在线或被删除)
  • PositiveVotes: 正投票数
  • NegativeVotes: 负投票数
  • Category: 分类标签(如SentimentPositive, OffTopic等)
  • Value: 分类值(0或1)
  • Fold: 折叠编号(0-9)

数据分割

  • posts_labeled: 训练集,40,567个实例
  • posts_unlabeled: 训练集,1,000,000个实例
  • articles: 训练集,12,087个实例

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 众包
  • 注释过程: 由专业论坛版主进行标注
  • 个人和敏感信息: 用户名已重新映射为新的数字ID
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作