five

clips/mfaq

收藏
Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clips/mfaq
下载链接
链接失效反馈
官方服务:
资源简介:
MFAQ是一个多语言的FAQ(常见问题解答)数据集,包含从Common Crawl中解析出的问答对。数据集支持21种语言,总共有约634万对问答。数据可以按页面或按对(扁平化)的方式组织。每个页面包含多个问答对,每个问答对包含问题和答案。数据集的创建者包括Maxime De Bruyn等人,数据集的许可证为CC0 1.0。

MFAQ is a multilingual FAQ (Frequently Asked Questions) dataset composed of question-answer pairs parsed from Common Crawl. It supports 21 languages and contains a total of approximately 6.34 million question-answer pairs. The dataset can be structured either on a per-webpage basis or in a flattened pair-wise format. Each webpage holds multiple question-answer pairs, with each individual pair comprising a question and its corresponding answer. The dataset was developed by Maxime De Bruyn et al., and it is licensed under CC0 1.0.
提供机构:
clips
原始信息汇总

数据集概述

数据集名称

  • 名称: MFAQ - a Multilingual FAQ Dataset
  • 别名: MFAQ

数据集特性

  • 语言: 包含21种语言,包括英语、德语、西班牙语等。
  • 许可证: CC0-1.0
  • 多语言性: 多语言
  • 任务类型: 问答(Multiple-Choice QA)
  • 数据来源: 原始数据,从Common Crawl解析FAQPage和FAQItem

数据集结构

  • 数据组织: 支持按页面和按对两种组织方式
    • 按页面: 包含id, language, num_pairs, domain, qa_pairs等字段
    • 按对: 包含domain_id, pair_id, language, domain, question, answer等字段

数据集规模

  • 总问题-答案对: 约6,346,693对
  • 按语言细分: 不同语言的问题-答案对数量不同,如英语有3,719,484对

使用示例

  • 加载数据: 通过指定语言代码加载特定语言的数据集,例如load_dataset("clips/mfaq", "en")

版权与引用

  • 版权声明: 数据集遵循CC0-1.0许可证,数据提取自公共领域文本
  • 引用信息: 引用时请使用提供的学术引用格式

开发团队

  • 开发者: Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans

更新信息

  • 更新版本: 参考MQAMFAQ Light获取数据集的更新版本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作