vishal-burman/c4-faqs
收藏数据集卡片 for C4-FAQs
数据集描述
数据集概述
C4-FAQs 数据集包含从 C4 数据集中提取的 150K 个常见问题解答(FAQ)URL 的开放领域问答对。请参考原始 paper 和 数据集卡片 获取更多详细信息。
您可以按如下方式加载 C4-FAQs: python from datasets import load_dataset c4_faqs_dataset = load_dataset("vishal-burman/c4-faqs")
支持的任务和排行榜
C4-FAQs 主要用于开放领域的端到端问题生成。它也可以用于开放领域的问题回答。
语言
C4-FAQs 仅支持英语。
数据集结构
数据实例
一个数据集点的示例: python {url: https://www.brusselsghosts.com/things-to-do-brussels/faq.html, faq_pairs: [{question: What should I bring for the tour?, answer: Nothing special, just be ready to walk for bit and potentially something to protect you from poltergeists and rain. Any kind of amulet or protection stone is also welcome.}, {question: Can kids join too ?, answer: Yes, we accept kids from 6 years old and on! We also have a family discount, if you book for 2 adults and 2 kids!}, {question: Where is the meeting point ?, answer: Brussels has many paved roads and those are hardly accessible with a wheelchair, for that reason we have to unfortunately label our tour as not wheelchair accessible.}]}
数据字段
数据包含以下字段:
url: 包含 FAQ 的网页 URLfaq_pairs: 从网页中提取的问题-答案对列表question: 单个问题,字符串形式answer: 上述问题的单个答案,字符串形式
数据分割
| 子集 | 总数 |
|---|---|
| train | 150K |
数据集创建
策划理由
该数据集是为了创建端到端的问题生成管道而策划的。大量开源模型使用 SQuAD 数据集来创建答案无关的问题生成模型。虽然这些问题是有效的,但它们通常是短小的、事实性的。该数据集从网站的 FAQ 中策划,这些 FAQ 通常是手工制作的,可以用来进一步提高生成问题的质量。
其他信息
数据集策展人
原始数据由 Common Crawl 提供。
许可信息
原始数据集在 ODC-BY 条款下发布。使用此数据集,您还应遵守 Common Crawl 的使用条款。
引用信息
如果您使用此数据集,请在 GitHub、Twitter 或通过电子邮件与我联系。
引用原始 c4 数据集:
bibtex
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}



