djaym7/wiki_dialog
收藏Hugging Face2022-08-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/djaym7/wiki_dialog
下载链接
链接失效反馈官方服务:
资源简介:
`WikiDialog-OQ`是一个包含1100万条从英文维基百科段落生成的信息寻求对话的数据集。该数据集使用了Dialog Inpainting技术,通过将文档转换为对话来生成高质量对话数据。具体来说,`Inpaint-OQ`模型(一个基于T5-XXL的模型)在`OR-QuAC`和`QReCC`数据集上进行了微调,并使用对话重建损失来生成对话。每个对话包含两个说话者,一个说话者的发言是直接从段落中提取的句子,另一个说话者的发言是由模型生成的。数据集的结构包括`pid`(段落唯一标识符)、`title`(维基百科页面标题)、`passage`(维基百科段落)、`sentences`(段落中的句子列表)、`utterances`(生成的对话列表)和`author_num`(说话者编号列表)等字段。
提供机构:
djaym7
原始信息汇总
数据集概述
数据集名称
WikiDialog-OQ
数据集内容
WikiDialog-OQ 是一个包含11M信息寻求对话的数据集,这些对话来源于英文维基百科的段落。每个对话是通过对话填充方法生成的,使用了一个名为 Inpaint-OQ 的模型,该模型是一个经过 OR-QuAC 和 QReCC 微调的T5-XXL模型。
数据集特点
- 生成方法:使用对话填充技术,将文档文本转化为作者与想象中的读者之间的对话。
- 数据来源:段落来自
OR-QuAC检索语料库,共享段落ID。 - 数据格式:提供JSON格式,每行包含一个对话的JSON对象。
数据集结构
- 字段:
pid(字符串):段落的唯一标识符。title(字符串):来源维基百科页面的标题。passage(字符串):来自维基百科的段落。sentences(字符串列表):从passage分割出的所有句子。utterances(字符串列表):由对话填充模型生成的合成对话。author_num(整数列表):指示文本中作者编号的列表。
数据集下载
- 验证数据:可通过命令
wget https://storage.googleapis.com/gresearch/dialog-inpainting/WikiDialog_OQ/data_validation.jsonl.gz下载。 - 训练数据:可通过一系列命令下载,每个分片约72Mb。
数据集使用
- 加载方式:可通过
datasets.load_dataset(djaym7/wiki_dialog,OQ, beam_runner=DirectRunner)在huggingface上加载。 - 处理数据集:可通过
tensorflow_datasets加载,安装tfds-nightly和相关依赖后,使用tfds.load(wiki_dialog/OQ, with_info=True)加载数据集。
引用信息
@inproceedings{dai2022dialoginpainting, title={Dialog Inpainting: Turning Documents to Dialogs}, author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin}, booktitle={International Conference on Machine Learning (ICML)}, year={2022}, organization={PMLR} }



