dstc8-reddit-corpus|社交平台数据集|对话数据数据集

github2024-01-05 更新2024-05-31 收录

社交平台

对话数据

下载链接：

https://github.com/microsoft/dstc8-reddit-corpus

下载链接

链接失效反馈

资源简介：

该数据集包含从2017年11月至2018年10月，从1000个非毒性且订阅数超过75,000的Reddit子论坛中抽取的对话。每个帖子最多抽取两个对话，每个对话至少包含4轮交流。数据集未进行后期处理，最终压缩文件大小约为4.2GB。

This dataset comprises dialogues extracted from 1,000 non-toxic Reddit subreddits, each with over 75,000 subscribers, spanning from November 2017 to October 2018. Up to two dialogues were sampled from each post, with each dialogue containing at least four exchanges. The dataset has not undergone post-processing, and the final compressed file size is approximately 4.2GB.

创建时间：

2019-06-03

原始信息汇总

数据集概述

基本信息

名称: dstc8-reddit
目的: 用于DSTC 8 Competition, Multi-Domain End-to-End Track, Task 2: Fast Adaptation的Reddit语料构建代码
数据来源: 从3rd party Pushshift repository下载的原始数据

数据集生成

要求

Python版本: 3.5+
存储空间: 约210 GB（默认设置下构建对话），最终压缩包大小为4.2 GB
生成时间: 24-72小时，取决于互联网连接速度、核心数和RAM大小

生成步骤

修改配置文件中的run_dir以指定数据生成位置。
使用python setup.py install安装包。
使用python scripts/reddit.py generate生成数据。

语料信息

数据范围: 2017年11月至2018年10月
子论坛选择: 1000个相对非毒性的子论坛，每个至少有75,000订阅者
对话采样: 每个帖子最多采样两个对话，来自不同的顶级评论
对话长度: 每个对话至少包含4个回合
数据过滤: 基于Reddit API字段，排除机器人内容等
最终数据集大小: 约4.2 GB

数据集结构

压缩包结构:
- dialogues/training: 5,085,113个对话
- dialogues/validation_date_in_domain_in: 254,624个对话
- dialogues/validation_date_in_domain_out: 1,278,998个对话
- dialogues/validation_date_out_domain_in: 1,037,977个对话
- dialogues/validation_date_out_domain_out: 262,036个对话

数据格式

文件格式: 每个对话文件包含一个对话，每行是一个JSON字符串
JSON结构: json { "id": "...", "domain": "...", "task_id": "...", "bot_id": "", "user_id": "", "turns": [...] }

使用示例

Python读取示例: python with zipfile.ZipFile(dstc8-reddit-corpus.zip,r) as myzip: with io.TextIOWrapper(myzip.open(dialogues/training/askreddit.txt), encoding=utf-8) as f: for line in f: dlg = json.loads(line)

AI搜集汇总

数据集介绍

构建方式

dstc8-reddit-corpus数据集的构建过程基于Luigi框架，通过从Pushshift第三方仓库下载原始数据，经过多步骤处理生成对话语料。首先，用户需配置运行目录并安装相关Python包，随后通过执行脚本生成数据。整个构建过程需要较大的磁盘空间和较长的处理时间，具体取决于网络连接速度、CPU核心数及内存大小。数据集最终以压缩包形式提供，包含训练集和多个验证集，每个子集按不同日期和子版块划分。

特点

dstc8-reddit-corpus数据集涵盖了1000个相对非恶意的Reddit子版块，每个子版块拥有超过75,000名订阅者。数据时间跨度为2017年11月至2018年10月，每个帖子最多采样两个对话，且每个对话至少包含4轮交互。数据集经过严格的过滤，剔除了机器人内容等不相关数据，最终生成的压缩包大小为4.2 GB。数据集的结构清晰，按子版块和日期划分，便于不同场景下的使用。

使用方法

使用dstc8-reddit-corpus数据集时，用户需先解压缩数据包，随后通过Python脚本读取对话文件。每个对话文件以JSON格式存储，包含对话的唯一标识、所属子版块、任务ID及对话轮次等信息。用户可通过简单的Python代码示例读取并解析对话数据，进而进行模型训练或验证。此外，用户可根据需求调整配置文件中的参数，以优化数据处理效率或适应不同的硬件环境。

背景与挑战

背景概述

dstc8-reddit-corpus数据集是为第八届对话系统技术挑战赛（DSTC 8）的多领域端到端对话系统任务而构建的语料库，旨在支持快速适应不同领域的对话模型训练。该数据集由微软研究团队主导开发，基于Reddit平台的公开数据，涵盖了2017年11月至2018年10月期间的1000个相对非毒性的子论坛，每个子论坛拥有超过75,000名订阅者。数据集的核心研究问题在于如何从大规模社交媒体对话中提取高质量的对话样本，以支持多领域对话系统的快速适应与泛化能力。该数据集的发布为对话系统领域的研究者提供了一个丰富的资源，推动了多领域对话模型的发展。

当前挑战

dstc8-reddit-corpus数据集在构建过程中面临了多方面的挑战。首先，从Reddit平台提取的原始数据规模庞大，处理与过滤这些数据需要大量的计算资源与时间，尤其是在内存与磁盘空间有限的情况下。其次，确保对话样本的质量与多样性是一个关键问题，数据集通过严格的过滤机制去除机器人内容与低质量对话，但仍需平衡数据规模与质量。此外，数据集的构建依赖于第三方Pushshift仓库，其连接限制与数据下载速度进一步增加了数据获取的复杂性。最后，如何在多领域对话系统中有效利用该数据集进行快速适应与泛化，仍是研究者需要解决的核心挑战。

常用场景

经典使用场景

dstc8-reddit-corpus数据集在对话系统研究领域具有广泛的应用，尤其在多领域端到端对话系统的快速适应任务中表现突出。该数据集通过从Reddit平台提取的对话数据，为研究者提供了丰富的多领域对话样本，涵盖了1000个相对非毒性的子论坛，每个子论坛拥有超过75,000名订阅者。这些数据被广泛应用于对话模型的训练和验证，特别是在跨领域对话生成和适应性对话系统开发中，为模型提供了多样化的对话场景和语境。

实际应用

dstc8-reddit-corpus数据集在实际应用中展现了其强大的实用价值。该数据集被广泛应用于智能客服、虚拟助手和社交机器人等实际对话系统的开发中。通过利用该数据集中的多领域对话样本，开发者能够训练出更具适应性和泛化能力的对话模型，从而提升系统的用户体验。此外，该数据集还为对话系统的跨领域迁移学习提供了丰富的训练数据，帮助系统在不同应用场景中快速适应和优化。

衍生相关工作

dstc8-reddit-corpus数据集的发布催生了一系列相关研究工作，尤其是在多领域对话系统和快速适应任务中。基于该数据集，研究者提出了多种创新的对话生成模型和对话管理策略，显著提升了对话系统的性能和适应性。例如，一些研究利用该数据集开发了基于深度学习的跨领域对话生成模型，能够在不同领域之间进行有效的对话迁移。此外，该数据集还被用于对话系统的评估和基准测试，为对话系统研究提供了重要的参考标准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

38-Cloud

该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁，适合深度学习语义分割算法。训练集有8400个补丁，测试集有9201个补丁。每个补丁包含4个对应的谱通道：红色、绿色、蓝色和近红外。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Wafer Defect

该数据集包含了七个主要类别的晶圆缺陷，分别是：BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型，每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性，而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注，确保了数据的准确性和可靠性。

github 收录