five

sbarham/megawika-test

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sbarham/megawika-test
下载链接
链接失效反馈
官方服务:
资源简介:
MegaWika是一个多语言和跨语言的文本数据集,包含30百万个维基百科段落及其清理后的网络引用。这些段落涵盖50种语言的维基百科,并提供非英语段落的自动英语翻译。此外,还提取了近130百万个英语问答对,并使用LOME FrameNet解析器检测段落中的FrameNet事件。
提供机构:
sbarham
原始信息汇总

数据集卡片 MegaWika

数据集描述

数据集概述

MegaWika 是一个多语言和跨语言文本数据集,包含 3000 万条维基百科段落及其抓取和清理的网络引用。这些段落涵盖 50 种语言的 50 个维基百科,并且为了方便起见,包含这些段落最初嵌入的文章。对于非英语的维基百科段落,提供了自动的英语翻译。此外,从这些段落中提取了近 1.3 亿个英语问答对,并使用 LOME FrameNet 解析器检测段落中出现的 FrameNet 事件。

数据集创建

MegaWika 的创建流程复杂,详细描述见相关论文。以下图示展示了基本方法: MegaWika 流程图

支持的任务和排行榜

MegaWika 旨在支持包括报告生成、摘要、信息检索、问答等多种研究任务。

语言

MegaWika 按维基百科语言划分,包含 50 种语言,包括英语,每种语言由其 2 字符 ISO 语言代码标识:

  • af: 南非荷兰语
  • ar: 阿拉伯语
  • az: 阿塞拜疆语
  • bn: 孟加拉语
  • cs: 捷克语
  • de: 德语
  • en: 英语
  • es: 西班牙语
  • et: 爱沙尼亚语
  • fa: 波斯语
  • fi: 芬兰语
  • fr: 法语
  • ga: 爱尔兰语
  • gl: 加利西亚语
  • gu: 古吉拉特语
  • he: 希伯来语
  • hi: 印地语
  • hr: 匈牙利语
  • id: 印度尼西亚语
  • it: 意大利语
  • ja: 日语
  • ka: 格鲁吉亚语
  • kk: 哈萨克语
  • km: 高棉语
  • ko: 韩语
  • lt: 立陶宛语
  • lv: 拉脱维亚语
  • mk: 马其顿语
  • ml: 马拉雅拉姆语
  • mn: 蒙古语
  • mr: 马拉地语
  • my: 缅甸语
  • ne: 尼泊尔语
  • nl: 荷兰语
  • pl: 波兰语
  • ps: 普什图语
  • pt: 葡萄牙语
  • ro: 罗马尼亚语
  • ru: 俄语
  • si: 僧伽罗语
  • sl: 斯洛文尼亚语
  • sv: 瑞典语
  • ta: 泰米尔语
  • th: 泰语
  • tr: 土耳其语
  • uk: 乌克兰语
  • ur: 乌尔都语
  • vi: 越南语
  • xh: 科萨语
  • zh: 中文

数据集结构

数据实例

每个实例包含原始维基百科文章的文本,以及一系列条目。每个条目基本上包含一个提取的维基百科段落、引用网页源的 URL 和抓取的文本、从段落中提取的问答对列表以及段落的 FrameNet 解析。对于非英语维基百科的段落,还提供了机器翻译。

数据字段

实例的详细结构如下: json { "article_title": "文章标题", "article_text": "文章文本", "entries": [ { "id": "段落ID", "passage": { "text": "英文段落文本", "parse": "FrameNet解析", "en_tokens": "英文段落分词", "lang_tokens": "原始非英文段落分词", "en_lang_token_map": "英文与原始语言分词索引映射" }, "original": "原始语言段落", "original_sents": "原始语言段落句子", "translation": "机器翻译段落", "translation_sents": "机器翻译段落句子", "translation_probs": "机器翻译概率", "repetitious_translation": "机器翻译是否重复", "source_lang": "语言ID", "source_url": "引用网页源URL", "source_text": "网页源抓取文本", "qa_pairs": [ { "question": "生成的问题", "passage_id": "段落ID", "en_answer": "英文答案", "lang_answer": "原始语言答案", "frames": [ { "frame": "触发的问题框架", "argument": "检测的框架参数" } ], "en_matches_in_source": "英文答案在源文档中的索引", "en_match_in_passage": "英文答案在英文翻译段落中的索引", "lang_matches_in_source": "原始语言答案在源文档中的索引", "lang_match_in_passage": "原始语言答案在原始语言段落中的索引", "passage": "段落句子", "en_answer_tokens": "英文答案分词", "match_disambiguated_question": "通过匹配代词与文章标题获得的去歧义问题" } ] } ] }

数据分割

MegaWika 目前仅按语言分割,每个任务将根据其自身的过滤、采样、选择和分割方法进行处理。

许可和删除政策

MegaWika 1.0 包含部分从网络上抓取的文档(基于维基百科文章中的引用链接)。我们不拥有任何抓取文本的版权,也不声称拥有版权:从维基百科引用中提取的文本旨在用于算法设计和模型训练的研究用途。我们根据 CC-BY-SA-4.0 许可发布此数据集及其所有内容。

通知和删除政策

如果您认为我们的数据包含您拥有的材料,因此不应在此处复制,请:

  • 清楚地识别自己,并提供详细的联系信息,如地址、电话号码或电子邮件地址。
  • 清楚地识别被侵权的版权作品。
  • 清楚地识别被侵权的材料,并提供足够的信息以便我们定位该材料。

联系作者后,我们将从下一个数据集版本中删除受影响的源。

附加信息

数据集策展人

由约翰霍普金斯大学人类语言技术卓越中心(JHU/HLTCOE)发布和维护。您可以联系 MegaWika 作者之一,包括 Samuel BarhamOrion WellerBen van Durme 提出问题。

许可信息

根据 Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 许可发布。

引用信息

bibtex @misc{barham2023megawika, title={MegaWika: Millions of reports and their sources across 50 diverse languages}, author={Samuel Barham and Orion Weller and Michelle Yuan and Kenton Murray and Mahsa Yarmohammadi and Zhengping Jiang and Siddharth Vashishtha and Alexander Martin and Anqi Liu and Aaron Steven White and Jordan Boyd-Graber and Benjamin Van Durme}, year={2023}, eprint={2307.07049}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作