OFAI/omp
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/OFAI/omp
下载链接
链接失效反馈官方服务:
资源简介:
“One Million Posts”数据集是一个包含用户评论的标注数据集,这些评论来自奥地利报纸网站(德语)。数据集包含2015年6月1日至2016年5月31日期间的11,773条标注评论和1,000,000条未标注评论。标注由报纸的专业论坛版主完成。数据集包含每个帖子的ID、文章ID、标题、正文、用户ID、时间戳、父帖子、状态、正面投票数、负面投票数等信息。此外,数据集还包含每篇文章的ID、发布日期、主题路径、标题和正文。标注类别包括情感(负面/中性/正面)、离题、不当内容、歧视性内容、反馈、个人故事和使用的论据等。
“One Million Posts”数据集是一个包含用户评论的标注数据集,这些评论来自奥地利报纸网站(德语)。数据集包含2015年6月1日至2016年5月31日期间的11,773条标注评论和1,000,000条未标注评论。标注由报纸的专业论坛版主完成。数据集包含每个帖子的ID、文章ID、标题、正文、用户ID、时间戳、父帖子、状态、正面投票数、负面投票数等信息。此外,数据集还包含每篇文章的ID、发布日期、主题路径、标题和正文。标注类别包括情感(负面/中性/正面)、离题、不当内容、歧视性内容、反馈、个人故事和使用的论据等。
提供机构:
OFAI
原始信息汇总
数据集概述
名称: One Million Posts Corpus
语言: 德语
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本分类
任务ID: 情感分类
数据集结构
数据实例
- posts_labeled: 包含40,567个标注实例,每个实例包括帖子ID、文章ID、用户ID、创建时间、状态、标题、正文、正投票数、负投票数及分类标签。
- posts_unlabeled: 包含1,000,000个未标注实例,每个实例包括帖子ID、文章ID、用户ID、创建时间、状态、标题、正文、正投票数、负投票数。
- articles: 包含12,087个文章实例,每个实例包括文章ID、发布日期、标题、正文。
数据字段
- ID_Post: 帖子ID
- ID_Parent_Post: 父帖子ID
- ID_Article: 文章ID
- ID_User: 用户ID
- Headline: 标题
- Body: 正文
- CreatedAt: 创建时间
- Status: 状态(在线或被删除)
- PositiveVotes: 正投票数
- NegativeVotes: 负投票数
- Category: 分类标签(如SentimentPositive, OffTopic等)
- Value: 分类值(0或1)
- Fold: 折叠编号(0-9)
数据分割
- posts_labeled: 训练集,40,567个实例
- posts_unlabeled: 训练集,1,000,000个实例
- articles: 训练集,12,087个实例
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 众包
- 注释过程: 由专业论坛版主进行标注
- 个人和敏感信息: 用户名已重新映射为新的数字ID



