Reddit QA Corpus

github2024-02-13 更新2024-05-31 收录

下载链接：

https://github.com/FMCumhaill/Reddit-QA-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个来自/r/askreddit子版块的问题和答案数据集，总计4,976,760个问题和答案对，用于训练seq2seq神经网络。

A dataset comprising questions and answers from the /r/askreddit subreddit, totaling 4,976,760 question-answer pairs, utilized for training seq2seq neural networks.

创建时间：

2018-06-16

原始信息汇总

Reddit-QA-corpus- 数据集概述

数据集描述

来源：数据集来源于 Reddit 的 /r/askreddit 子论坛。
目的：设计用于训练 seq2seq 神经网络。
规模：包含 4,976,760 个问题和答案对。

数据收集

时间：数据收集自 2018年6月15日从 pushshift.io 的 Reddit 数据转储。
方法：所有提交到子论坛的内容被视为问题，每个提交的第一个评论被视为答案。

数据清洗

筛选条件：
- 提交必须有评论才能被包括。
- 删除标记为 [deleted]、[removed] 或由子论坛自动机器人发布的评论。
- 不包含问题的提交被移除。

数据存储

文件大小：每个文件约半GB。
存储位置：数据存储在远程服务器上。
文件链接：
- 答案文件：Answers
- 问题文件：Questions

数据统计

问题数量：7,102,717
答案数量：12,039,795
- 自动机器人答案：2,548,641
- 删除的答案：831,108
- 其他：73,881
有效问题和答案对：4,976,759

引用信息

学术使用：如用于学术目的，请联系 fionnd [at] pm.me 获取完整的引用信息。
参考文献：

@misc{redditqa, author = "{Fionn Delahunty}", title = {{Reddit QA Corpus}}, howpublished = {url{https://github.com/FionnD/Reddit-QA-Corpus}}, note = {Online; accessed XXX} , year=2018, }

搜集汇总

数据集介绍

构建方式

Reddit QA Corpus数据集的构建基于2018年6月15日从Pushshift.io获取的Reddit数据转储。数据集的核心内容来源于/r/askreddit子论坛，其中每个提交被视为一个问题，而每个提交的第一个评论则被视为答案。为确保数据质量，数据集在构建过程中进行了严格的清洗，剔除了无评论的提交、被删除或移除的评论，以及由子论坛自动机器人发布的评论。此外，所有提交必须包含问号以确保其作为问题的有效性。

特点

Reddit QA Corpus数据集包含了4,976,760个问答对，涵盖了广泛的主题和语境，适用于训练序列到序列（seq2seq）神经网络。数据集的特点在于其规模庞大且内容丰富，能够为自然语言处理任务提供多样化的训练样本。每个问答对均经过精心筛选，确保了数据的准确性和实用性，使其成为研究问答系统和对话生成模型的理想选择。

使用方法

使用Reddit QA Corpus数据集时，用户可以通过访问远程服务器下载包含问题和答案的文本文件。数据集以纯文本格式存储，便于直接加载和处理。用户可以根据需要将数据集用于训练和评估问答系统、对话生成模型等自然语言处理任务。在学术研究中，建议引用数据集时联系作者获取完整的引用信息，以确保学术规范和数据来源的透明性。

背景与挑战

背景概述

Reddit QA Corpus数据集于2018年由Fionn Delahunty创建，旨在为序列到序列（seq2seq）神经网络的训练提供丰富的问答对资源。该数据集来源于Reddit的/r/askreddit子论坛，通过抓取2018年6月15日的Reddit数据转储，提取了4,976,760对问答数据。每对数据由子论坛中的提交问题及其第一条评论作为答案组成。该数据集的构建不仅为自然语言处理领域的研究者提供了大规模的真实对话数据，还推动了问答系统和对话生成模型的发展。

当前挑战

Reddit QA Corpus在构建过程中面临了多重挑战。首先，数据清洗过程复杂，需剔除自动机器人发布的评论、被删除或移除的评论，以及不符合问答格式的提交。其次，数据规模庞大，单个文件接近500MB，存储和传输成为技术难题。此外，尽管数据集规模可观，但其内容的质量和多样性仍需进一步验证，以确保其在训练seq2seq模型时的有效性。最后，数据集的引用和版权问题也需谨慎处理，以确保学术使用的合规性。

常用场景

经典使用场景

Reddit QA Corpus 数据集广泛应用于自然语言处理领域，特别是在问答系统和对话生成模型的训练中。该数据集通过从Reddit的/r/askreddit子论坛中提取问题和答案对，为研究人员提供了一个丰富的语料库，用于训练序列到序列（seq2seq）神经网络模型。其大规模的数据量和多样化的内容使得模型能够更好地理解和生成自然语言。

衍生相关工作

Reddit QA Corpus 数据集衍生了许多经典的自然语言处理研究工作。例如，基于该数据集的模型在问答系统、对话生成和机器翻译等领域取得了显著进展。研究人员利用该数据集开发了多种先进的神经网络架构，如Transformer和BERT，这些模型在多个自然语言处理任务中表现优异，推动了该领域的技术创新和应用发展。

数据集最近研究