dstc8-reddit-corpus

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/dstc8-reddit-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从2017年11月至2018年10月，从1000个非毒性且订阅数超过75,000的Reddit子论坛中抽取的对话。每个帖子最多抽取两个对话，每个对话至少包含4轮交流。数据集未进行后期处理，最终压缩文件大小约为4.2GB。

This dataset comprises dialogues extracted from 1,000 non-toxic Reddit subreddits, each with over 75,000 subscribers, spanning from November 2017 to October 2018. Up to two dialogues were sampled from each post, with each dialogue containing at least four exchanges. The dataset has not undergone post-processing, and the final compressed file size is approximately 4.2GB.

创建时间：

2019-06-03

原始信息汇总

数据集概述

基本信息

名称: dstc8-reddit
目的: 用于DSTC 8 Competition, Multi-Domain End-to-End Track, Task 2: Fast Adaptation的Reddit语料构建代码
数据来源: 从3rd party Pushshift repository下载的原始数据

数据集生成

要求

Python版本: 3.5+
存储空间: 约210 GB（默认设置下构建对话），最终压缩包大小为4.2 GB
生成时间: 24-72小时，取决于互联网连接速度、核心数和RAM大小

生成步骤

修改配置文件中的run_dir以指定数据生成位置。
使用python setup.py install安装包。
使用python scripts/reddit.py generate生成数据。

语料信息

数据范围: 2017年11月至2018年10月
子论坛选择: 1000个相对非毒性的子论坛，每个至少有75,000订阅者
对话采样: 每个帖子最多采样两个对话，来自不同的顶级评论
对话长度: 每个对话至少包含4个回合
数据过滤: 基于Reddit API字段，排除机器人内容等
最终数据集大小: 约4.2 GB

数据集结构

压缩包结构:
- dialogues/training: 5,085,113个对话
- dialogues/validation_date_in_domain_in: 254,624个对话
- dialogues/validation_date_in_domain_out: 1,278,998个对话
- dialogues/validation_date_out_domain_in: 1,037,977个对话
- dialogues/validation_date_out_domain_out: 262,036个对话

数据格式

文件格式: 每个对话文件包含一个对话，每行是一个JSON字符串
JSON结构: json { "id": "...", "domain": "...", "task_id": "...", "bot_id": "", "user_id": "", "turns": [...] }

使用示例

Python读取示例: python with zipfile.ZipFile(dstc8-reddit-corpus.zip,r) as myzip: with io.TextIOWrapper(myzip.open(dialogues/training/askreddit.txt), encoding=utf-8) as f: for line in f: dlg = json.loads(line)

搜集汇总

数据集介绍

构建方式

dstc8-reddit-corpus数据集的构建过程基于Luigi框架，通过从Pushshift第三方仓库下载原始数据，经过多步骤处理生成对话语料。首先，用户需配置运行目录并安装相关Python包，随后通过执行脚本生成数据。整个构建过程需要较大的磁盘空间和较长的处理时间，具体取决于网络连接速度、CPU核心数及内存大小。数据集最终以压缩包形式提供，包含训练集和多个验证集，每个子集按不同日期和子版块划分。

特点

dstc8-reddit-corpus数据集涵盖了1000个相对非恶意的Reddit子版块，每个子版块拥有超过75,000名订阅者。数据时间跨度为2017年11月至2018年10月，每个帖子最多采样两个对话，且每个对话至少包含4轮交互。数据集经过严格的过滤，剔除了机器人内容等不相关数据，最终生成的压缩包大小为4.2 GB。数据集的结构清晰，按子版块和日期划分，便于不同场景下的使用。

使用方法

使用dstc8-reddit-corpus数据集时，用户需先解压缩数据包，随后通过Python脚本读取对话文件。每个对话文件以JSON格式存储，包含对话的唯一标识、所属子版块、任务ID及对话轮次等信息。用户可通过简单的Python代码示例读取并解析对话数据，进而进行模型训练或验证。此外，用户可根据需求调整配置文件中的参数，以优化数据处理效率或适应不同的硬件环境。

背景与挑战

背景概述

dstc8-reddit-corpus数据集是为第八届对话系统技术挑战赛（DSTC 8）的多领域端到端对话系统任务而构建的语料库，旨在支持快速适应不同领域的对话模型训练。该数据集由微软研究团队主导开发，基于Reddit平台的公开数据，涵盖了2017年11月至2018年10月期间的1000个相对非毒性的子论坛，每个子论坛拥有超过75,000名订阅者。数据集的核心研究问题在于如何从大规模社交媒体对话中提取高质量的对话样本，以支持多领域对话系统的快速适应与泛化能力。该数据集的发布为对话系统领域的研究者提供了一个丰富的资源，推动了多领域对话模型的发展。

当前挑战

dstc8-reddit-corpus数据集在构建过程中面临了多方面的挑战。首先，从Reddit平台提取的原始数据规模庞大，处理与过滤这些数据需要大量的计算资源与时间，尤其是在内存与磁盘空间有限的情况下。其次，确保对话样本的质量与多样性是一个关键问题，数据集通过严格的过滤机制去除机器人内容与低质量对话，但仍需平衡数据规模与质量。此外，数据集的构建依赖于第三方Pushshift仓库，其连接限制与数据下载速度进一步增加了数据获取的复杂性。最后，如何在多领域对话系统中有效利用该数据集进行快速适应与泛化，仍是研究者需要解决的核心挑战。

常用场景

经典使用场景

dstc8-reddit-corpus数据集在对话系统研究领域具有广泛的应用，尤其在多领域端到端对话系统的快速适应任务中表现突出。该数据集通过从Reddit平台提取的对话数据，为研究者提供了丰富的多领域对话样本，涵盖了1000个相对非毒性的子论坛，每个子论坛拥有超过75,000名订阅者。这些数据被广泛应用于对话模型的训练和验证，特别是在跨领域对话生成和适应性对话系统开发中，为模型提供了多样化的对话场景和语境。

实际应用

dstc8-reddit-corpus数据集在实际应用中展现了其强大的实用价值。该数据集被广泛应用于智能客服、虚拟助手和社交机器人等实际对话系统的开发中。通过利用该数据集中的多领域对话样本，开发者能够训练出更具适应性和泛化能力的对话模型，从而提升系统的用户体验。此外，该数据集还为对话系统的跨领域迁移学习提供了丰富的训练数据，帮助系统在不同应用场景中快速适应和优化。

衍生相关工作

dstc8-reddit-corpus数据集的发布催生了一系列相关研究工作，尤其是在多领域对话系统和快速适应任务中。基于该数据集，研究者提出了多种创新的对话生成模型和对话管理策略，显著提升了对话系统的性能和适应性。例如，一些研究利用该数据集开发了基于深度学习的跨领域对话生成模型，能够在不同领域之间进行有效的对话迁移。此外，该数据集还被用于对话系统的评估和基准测试，为对话系统研究提供了重要的参考标准。

以上内容由遇见数据集搜集并总结生成