djaym7/wiki_dialog

Name: djaym7/wiki_dialog
Creator: djaym7
Published: 2022-08-20 02:36:29
License: 暂无描述

Hugging Face2022-08-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/djaym7/wiki_dialog

下载链接

链接失效反馈

官方服务：

资源简介：

`WikiDialog-OQ`是一个包含1100万条从英文维基百科段落生成的信息寻求对话的数据集。该数据集使用了Dialog Inpainting技术，通过将文档转换为对话来生成高质量对话数据。具体来说，`Inpaint-OQ`模型（一个基于T5-XXL的模型）在`OR-QuAC`和`QReCC`数据集上进行了微调，并使用对话重建损失来生成对话。每个对话包含两个说话者，一个说话者的发言是直接从段落中提取的句子，另一个说话者的发言是由模型生成的。数据集的结构包括`pid`（段落唯一标识符）、`title`（维基百科页面标题）、`passage`（维基百科段落）、`sentences`（段落中的句子列表）、`utterances`（生成的对话列表）和`author_num`（说话者编号列表）等字段。

提供机构：

djaym7

原始信息汇总

数据集概述

数据集名称

WikiDialog-OQ

数据集内容

WikiDialog-OQ 是一个包含11M信息寻求对话的数据集，这些对话来源于英文维基百科的段落。每个对话是通过对话填充方法生成的，使用了一个名为 Inpaint-OQ 的模型，该模型是一个经过 OR-QuAC 和 QReCC 微调的T5-XXL模型。

数据集特点

生成方法：使用对话填充技术，将文档文本转化为作者与想象中的读者之间的对话。
数据来源：段落来自 OR-QuAC 检索语料库，共享段落ID。
数据格式：提供JSON格式，每行包含一个对话的JSON对象。

数据集结构

字段：
- pid (字符串)：段落的唯一标识符。
- title (字符串)：来源维基百科页面的标题。
- passage (字符串)：来自维基百科的段落。
- sentences (字符串列表)：从passage分割出的所有句子。
- utterances (字符串列表)：由对话填充模型生成的合成对话。
- author_num (整数列表)：指示文本中作者编号的列表。

数据集下载

验证数据：可通过命令 wget https://storage.googleapis.com/gresearch/dialog-inpainting/WikiDialog_OQ/data_validation.jsonl.gz 下载。
训练数据：可通过一系列命令下载，每个分片约72Mb。

数据集使用

加载方式：可通过 datasets.load_dataset(djaym7/wiki_dialog,OQ, beam_runner=DirectRunner) 在huggingface上加载。
处理数据集：可通过 tensorflow_datasets 加载，安装 tfds-nightly 和相关依赖后，使用 tfds.load(wiki_dialog/OQ, with_info=True) 加载数据集。

引用信息

@inproceedings{dai2022dialoginpainting, title={Dialog Inpainting: Turning Documents to Dialogs}, author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin}, booktitle={International Conference on Machine Learning (ICML)}, year={2022}, organization={PMLR} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集