clips/mfaq
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clips/mfaq
下载链接
链接失效反馈官方服务:
资源简介:
MFAQ是一个多语言的FAQ(常见问题解答)数据集,包含从Common Crawl中解析出的问答对。数据集支持21种语言,总共有约634万对问答。数据可以按页面或按对(扁平化)的方式组织。每个页面包含多个问答对,每个问答对包含问题和答案。数据集的创建者包括Maxime De Bruyn等人,数据集的许可证为CC0 1.0。
MFAQ is a multilingual FAQ (Frequently Asked Questions) dataset composed of question-answer pairs parsed from Common Crawl. It supports 21 languages and contains a total of approximately 6.34 million question-answer pairs. The dataset can be structured either on a per-webpage basis or in a flattened pair-wise format. Each webpage holds multiple question-answer pairs, with each individual pair comprising a question and its corresponding answer. The dataset was developed by Maxime De Bruyn et al., and it is licensed under CC0 1.0.
提供机构:
clips
原始信息汇总
数据集概述
数据集名称
- 名称: MFAQ - a Multilingual FAQ Dataset
- 别名: MFAQ
数据集特性
- 语言: 包含21种语言,包括英语、德语、西班牙语等。
- 许可证: CC0-1.0
- 多语言性: 多语言
- 任务类型: 问答(Multiple-Choice QA)
- 数据来源: 原始数据,从Common Crawl解析FAQPage和FAQItem
数据集结构
- 数据组织: 支持按页面和按对两种组织方式
- 按页面: 包含id, language, num_pairs, domain, qa_pairs等字段
- 按对: 包含domain_id, pair_id, language, domain, question, answer等字段
数据集规模
- 总问题-答案对: 约6,346,693对
- 按语言细分: 不同语言的问题-答案对数量不同,如英语有3,719,484对
使用示例
- 加载数据: 通过指定语言代码加载特定语言的数据集,例如
load_dataset("clips/mfaq", "en")
版权与引用
- 版权声明: 数据集遵循CC0-1.0许可证,数据提取自公共领域文本
- 引用信息: 引用时请使用提供的学术引用格式
开发团队
- 开发者: Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans
更新信息
- 更新版本: 参考MQA或MFAQ Light获取数据集的更新版本



