five

djaym7/wiki_dialog

收藏
Hugging Face2022-08-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/djaym7/wiki_dialog
下载链接
链接失效反馈
官方服务:
资源简介:
`WikiDialog-OQ`是一个包含1100万条从英文维基百科段落生成的信息寻求对话的数据集。该数据集使用了Dialog Inpainting技术,通过将文档转换为对话来生成高质量对话数据。具体来说,`Inpaint-OQ`模型(一个基于T5-XXL的模型)在`OR-QuAC`和`QReCC`数据集上进行了微调,并使用对话重建损失来生成对话。每个对话包含两个说话者,一个说话者的发言是直接从段落中提取的句子,另一个说话者的发言是由模型生成的。数据集的结构包括`pid`(段落唯一标识符)、`title`(维基百科页面标题)、`passage`(维基百科段落)、`sentences`(段落中的句子列表)、`utterances`(生成的对话列表)和`author_num`(说话者编号列表)等字段。
提供机构:
djaym7
原始信息汇总

数据集概述

数据集名称

WikiDialog-OQ

数据集内容

WikiDialog-OQ 是一个包含11M信息寻求对话的数据集,这些对话来源于英文维基百科的段落。每个对话是通过对话填充方法生成的,使用了一个名为 Inpaint-OQ 的模型,该模型是一个经过 OR-QuACQReCC 微调的T5-XXL模型。

数据集特点

  • 生成方法:使用对话填充技术,将文档文本转化为作者与想象中的读者之间的对话。
  • 数据来源:段落来自 OR-QuAC 检索语料库,共享段落ID。
  • 数据格式:提供JSON格式,每行包含一个对话的JSON对象。

数据集结构

  • 字段
    • pid (字符串):段落的唯一标识符。
    • title (字符串):来源维基百科页面的标题。
    • passage (字符串):来自维基百科的段落。
    • sentences (字符串列表):从passage分割出的所有句子。
    • utterances (字符串列表):由对话填充模型生成的合成对话。
    • author_num (整数列表):指示文本中作者编号的列表。

数据集下载

  • 验证数据:可通过命令 wget https://storage.googleapis.com/gresearch/dialog-inpainting/WikiDialog_OQ/data_validation.jsonl.gz 下载。
  • 训练数据:可通过一系列命令下载,每个分片约72Mb。

数据集使用

  • 加载方式:可通过 datasets.load_dataset(djaym7/wiki_dialog,OQ, beam_runner=DirectRunner) 在huggingface上加载。
  • 处理数据集:可通过 tensorflow_datasets 加载,安装 tfds-nightly 和相关依赖后,使用 tfds.load(wiki_dialog/OQ, with_info=True) 加载数据集。

引用信息

@inproceedings{dai2022dialoginpainting, title={Dialog Inpainting: Turning Documents to Dialogs}, author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin}, booktitle={International Conference on Machine Learning (ICML)}, year={2022}, organization={PMLR} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作