One Million Posts Corpus

github2020-05-13 更新2024-05-31 收录

下载链接：

https://github.com/oliver-pola/OneMillionPostsCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

One Million Posts Corpus是一个包含德语在线讨论的数据集，用于深度学习分类任务。

The One Million Posts Corpus is a dataset comprising German online discussions, designed for deep learning classification tasks.

创建时间：

2019-12-13

原始信息汇总

数据集概述

数据集名称

OneMillionPostsCorpus

数据集描述

该数据集包含德语在线讨论的内容，用于深度学习分类任务。

数据集来源

由Dietmar Schabus, Marcin Skowron, Martin Trapp提供。
参考文献：One Million Posts: A Data Set of German Online Discussions，发表于第40届国际ACM SIGIR会议（SIGIR 2017）。

数据集内容

数据集包含以下表格内容：
- 文章数：12087
- 帖子数：1011773
- 报纸员工数：110
- 注释数：58568
- 合并注释数：40567
- 交叉验证分割数：40567
- 类别数：9

数据集使用

数据集支持单类别或多类别分类器的训练。
训练命令示例：python training.py < All | Category > [ Epochs = 50 ]
可用类别包括：
- SentimentNegative
- SentimentNeutral
- SentimentPositive
- OffTopic
- Inappropriate
- Discriminating
- PossiblyFeedback
- PersonalStories
- ArgumentsUsed

数据集结果

进一步的工作描述、模型和结果可在以下文档中找到：
- 项目演示文稿
- 项目报告

搜集汇总

数据集介绍

构建方式

One Million Posts Corpus是由Jens Becker、Julius Plehn和Oliver Pola在汉堡大学语言技术小组的深度学习与语言和语音研讨会项目中构建的。该数据集通过收集德国在线论坛的讨论，构建了一个包含文章、帖子、新闻工作人员注释等多个表格的SQLite数据库，旨在为深度学习分类任务提供丰富的训练和测试材料。

特点

该数据集的特点在于其规模宏大，包含超过一百万条的帖子数据，涵盖了多种类型的讨论内容。数据集的结构化设计使得不同类型的讨论可以被分类和标注，如情感倾向、是否跑题、是否不适当等，为研究在线讨论的性质和构建自动审核系统提供了丰富的资源。此外，数据集提供了详细的注释和交叉验证分割，有助于评估模型的性能。

使用方法

使用该数据集，用户首先需要通过pipenv安装相应的Python模块，并运行corpus脚本来下载和解压SQLite数据库。之后，用户可以在pipenv shell中运行training.py脚本来训练分类器，选择对所有类别或单个类别进行训练。此外，数据集还提供了项目报告和演示文稿，以供用户参考和理解项目细节及结果。

背景与挑战

背景概述

One Million Posts Corpus数据集，是由Dietmar Schabus、Marcin Skowron以及汉堡大学语言技术组的研究人员共同创建的。该数据集收集了一百万条德国在线讨论的帖子，旨在为深度学习在自然语言处理领域的分类任务提供丰富的训练资源。数据集的创建时间为2017年，并在SIGIR和LREC等国际会议上发表相关论文，对信息检索和语言资源评价领域产生了显著影响。

当前挑战

该数据集在构建过程中遇到的挑战包括语言多样性和讨论内容的复杂性，这为自动分类带来了困难。此外，数据集的标注一致性、数据隐私保护以及如何有效利用大规模数据提升模型性能等问题也是相关研究的挑战。在研究领域问题上，One Million Posts Corpus数据集解决了多类情感分析和话题分类的挑战，为构建自动化的在线讨论内容审核系统提供了基础数据。

常用场景

经典使用场景

One Million Posts Corpus作为德语网络讨论数据集，其经典的使用场景在于深度学习分类任务中，研究者可借此进行情感分析、话题检测与分类等自然语言处理研究，从而为构建智能化的在线讨论监控系统提供数据支撑。

解决学术问题

该数据集解决了在线讨论内容分类、情感分析等学术研究中的数据缺乏问题，为相关领域的研究者提供了大规模、标注详尽的语料资源，极大地推动了德语区网络内容自动处理技术的发展。

衍生相关工作

基于此数据集，衍生出了针对德语网络讨论的情感分类、不当内容检测等相关研究工作，并在国际学术会议上发表了相关论文，推动了自然语言处理技术在网络内容管理领域的应用。

以上内容由遇见数据集搜集并总结生成