five

hltcoe/megawika-report-generation

收藏
Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hltcoe/megawika-report-generation
下载链接
链接失效反馈
官方服务:
资源简介:
MegaWika是一个多语言和跨语言的文本数据集,包含3000万条维基百科段落及其清理后的网络引用。这些段落涵盖了50种语言的维基百科,并且为了方便使用,包含了这些段落最初嵌入的文章。对于非英语的维基百科段落,提供了自动翻译的英文版本。该数据集用于报告生成和多文档摘要任务,支持信息检索。数据集分为两部分:生成整个维基百科部分和迭代生成每个部分的片段。每个实例包含唯一ID、引用数量、文章标题、介绍、部分名称、先前文本、问题、原始维基百科部分文本、英文版本文本和引用列表。数据集发布在CC-BY-SA-4.0许可下,由约翰霍普金斯大学人类语言技术卓越中心维护。
提供机构:
hltcoe
原始信息汇总

MegaWika数据集概述

数据集内容

  • 规模:包含3000万条Wikipedia段落及其清理后的网络引用。
  • 语言多样性:涵盖50种语言的Wikipedia。
  • 附加信息:每个段落原始所在的完整文章也被包含在内。
  • 翻译服务:非英语语言的段落附带自动生成的英语翻译。

数据集用途

  • 支持多语言和跨语言的文本分析研究。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作