five

vishal-burman/c4-faqs

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vishal-burman/c4-faqs
下载链接
链接失效反馈
官方服务:
资源简介:
C4-FAQs数据集是从C4数据集中提取的150K FAQ URL生成的开放域问答对。该数据集主要用于开放域端到端问题生成,也可以用于开放域问答。数据集仅支持英语,包含URL和FAQ对(问题和答案)两个主要字段。数据集的创建目的是为了改进生成问题的质量,特别是从网站的FAQ中提取的问题,这些问题通常是手工制作的,质量较高。数据集由Common Crawl提供,遵循ODC-BY许可。
提供机构:
vishal-burman
原始信息汇总

数据集卡片 for C4-FAQs

数据集描述

数据集概述

C4-FAQs 数据集包含从 C4 数据集中提取的 150K 个常见问题解答(FAQ)URL 的开放领域问答对。请参考原始 paper数据集卡片 获取更多详细信息。

您可以按如下方式加载 C4-FAQs: python from datasets import load_dataset c4_faqs_dataset = load_dataset("vishal-burman/c4-faqs")

支持的任务和排行榜

C4-FAQs 主要用于开放领域的端到端问题生成。它也可以用于开放领域的问题回答。

语言

C4-FAQs 仅支持英语。

数据集结构

数据实例

一个数据集点的示例: python {url: https://www.brusselsghosts.com/things-to-do-brussels/faq.html, faq_pairs: [{question: What should I bring for the tour?, answer: Nothing special, just be ready to walk for bit and potentially something to protect you from poltergeists and rain. Any kind of amulet or protection stone is also welcome.}, {question: Can kids join too ?, answer: Yes, we accept kids from 6 years old and on! We also have a family discount, if you book for 2 adults and 2 kids!}, {question: Where is the meeting point ?, answer: Brussels has many paved roads and those are hardly accessible with a wheelchair, for that reason we have to unfortunately label our tour as not wheelchair accessible.}]}

数据字段

数据包含以下字段:

  • url: 包含 FAQ 的网页 URL
  • faq_pairs: 从网页中提取的问题-答案对列表
    • question: 单个问题,字符串形式
    • answer: 上述问题的单个答案,字符串形式

数据分割

子集 总数
train 150K

数据集创建

策划理由

该数据集是为了创建端到端的问题生成管道而策划的。大量开源模型使用 SQuAD 数据集来创建答案无关的问题生成模型。虽然这些问题是有效的,但它们通常是短小的、事实性的。该数据集从网站的 FAQ 中策划,这些 FAQ 通常是手工制作的,可以用来进一步提高生成问题的质量。

其他信息

数据集策展人

原始数据由 Common Crawl 提供。

许可信息

原始数据集在 ODC-BY 条款下发布。使用此数据集,您还应遵守 Common Crawl 的使用条款。

引用信息

如果您使用此数据集,请在 GitHub、Twitter 或通过电子邮件与我联系。

引用原始 c4 数据集: bibtex @article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作