vishal-burman/c4-faqs

Name: vishal-burman/c4-faqs
Creator: vishal-burman
Published: 2023-02-06 04:35:16
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vishal-burman/c4-faqs

下载链接

链接失效反馈

官方服务：

资源简介：

C4-FAQs数据集是从C4数据集中提取的150K FAQ URL生成的开放域问答对。该数据集主要用于开放域端到端问题生成，也可以用于开放域问答。数据集仅支持英语，包含URL和FAQ对（问题和答案）两个主要字段。数据集的创建目的是为了改进生成问题的质量，特别是从网站的FAQ中提取的问题，这些问题通常是手工制作的，质量较高。数据集由Common Crawl提供，遵循ODC-BY许可。

提供机构：

vishal-burman

原始信息汇总

数据集卡片 for C4-FAQs

数据集描述

数据集概述

C4-FAQs 数据集包含从 C4 数据集中提取的 150K 个常见问题解答（FAQ）URL 的开放领域问答对。请参考原始 paper 和 数据集卡片 获取更多详细信息。

您可以按如下方式加载 C4-FAQs： python from datasets import load_dataset c4_faqs_dataset = load_dataset("vishal-burman/c4-faqs")

支持的任务和排行榜

C4-FAQs 主要用于开放领域的端到端问题生成。它也可以用于开放领域的问题回答。

语言

C4-FAQs 仅支持英语。

数据集结构

数据实例

一个数据集点的示例： python {url: https://www.brusselsghosts.com/things-to-do-brussels/faq.html, faq_pairs: [{question: What should I bring for the tour?, answer: Nothing special, just be ready to walk for bit and potentially something to protect you from poltergeists and rain. Any kind of amulet or protection stone is also welcome.}, {question: Can kids join too ?, answer: Yes, we accept kids from 6 years old and on! We also have a family discount, if you book for 2 adults and 2 kids!}, {question: Where is the meeting point ?, answer: Brussels has many paved roads and those are hardly accessible with a wheelchair, for that reason we have to unfortunately label our tour as not wheelchair accessible.}]}

数据字段

数据包含以下字段：

url: 包含 FAQ 的网页 URL
faq_pairs: 从网页中提取的问题-答案对列表
- question: 单个问题，字符串形式
- answer: 上述问题的单个答案，字符串形式

数据分割

子集	总数
train	150K

数据集创建

策划理由

该数据集是为了创建端到端的问题生成管道而策划的。大量开源模型使用 SQuAD 数据集来创建答案无关的问题生成模型。虽然这些问题是有效的，但它们通常是短小的、事实性的。该数据集从网站的 FAQ 中策划，这些 FAQ 通常是手工制作的，可以用来进一步提高生成问题的质量。

其他信息

数据集策展人

原始数据由 Common Crawl 提供。

许可信息

原始数据集在 ODC-BY 条款下发布。使用此数据集，您还应遵守 Common Crawl 的使用条款。

引用信息

如果您使用此数据集，请在 GitHub、Twitter 或通过电子邮件与我联系。

引用原始 c4 数据集： bibtex @article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集