five

hltcoe/megawika

收藏
Hugging Face2025-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hltcoe/megawika
下载链接
链接失效反馈
官方服务:
资源简介:
MegaWika是一个多语言和跨语言的文本数据集,包含30百万个维基百科段落及其清理后的网络引用。这些段落涵盖50种语言的维基百科,并提供非英语段落的自动英语翻译。此外,还提取了近130百万个英语问答对,并使用LOME FrameNet解析器检测段落中的FrameNet事件。数据集旨在支持报告生成、摘要、信息检索、问答等多种任务的研究。

MegaWika是一个多语言和跨语言的文本数据集,包含30百万个维基百科段落及其清理后的网络引用。这些段落涵盖50种语言的维基百科,并提供非英语段落的自动英语翻译。此外,还提取了近130百万个英语问答对,并使用LOME FrameNet解析器检测段落中的FrameNet事件。数据集旨在支持报告生成、摘要、信息检索、问答等多种任务的研究。
提供机构:
hltcoe
原始信息汇总

数据集概述

名称: MegaWika

描述: MegaWika是一个包含3000万条多语言和跨语言文本的数据集,涵盖50种语言的维基百科段落及其网络引用的清理版本。数据集还包括从这些段落中提取的近1.3亿个英语问答对,以及使用LOME FrameNet解析器检测的FrameNet事件。

语言: 支持50种语言,包括英语、阿拉伯语、中文等。

数据结构: 数据集按语言划分,每种语言的数据进一步分为独立的JSON行文件。每个实例包含原始维基百科文章的文本、提取的维基百科段落、引用网页的URL和文本、从段落中提取的问答对以及段落的FrameNet解析。

任务支持: 支持多种任务,如报告生成、摘要、信息检索、问答等。

许可证: CC-BY-SA-4.0

数据集详细信息

数据实例结构:

  • article_title: 原始维基百科文章的标题
  • article_text: 维基百科文章的文本
  • entries: 包含段落信息、机器翻译、源信息和问答对

数据字段:

  • id: 段落ID
  • passage: 段落文本及其解析
  • original: 原始语言段落
  • translation: 机器翻译的段落
  • source_url: 引用网页的URL
  • source_text: 从网页提取的内容
  • qa_pairs: 问答对,包括问题、答案和相关框架信息

数据分割: 目前仅按语言分割,具体任务可能需要进一步的过滤和分割。

数据集创建

MegaWika的创建过程复杂,涉及从维基百科段落中提取信息、清理引用、提取问答对及进行FrameNet解析。

联系信息

负责人: Samuel Barham (samuel.barham@jhuapl.edu)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作