five

RussianNLP/wikiomnia

收藏
Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RussianNLP/wikiomnia
下载链接
链接失效反馈
官方服务:
资源简介:
WikiOmnia数据集是一个公开的问答对数据集,基于俄罗斯维基百科的文章生成。数据集包含两部分:自动生成的大量数据(约1590万条)和经过严格自动验证的过滤数据(约350万条)。每条数据包括原始文章摘要、生成的问题和生成的答案,遵循SQuAD格式。数据集用于问答系统的训练和评估,适用于新闻、小说和社交媒体等其他领域。
提供机构:
RussianNLP
原始信息汇总

数据集概述

数据集名称

  • WikiOmnia

数据集配置

  • wikiomnia_ruT5_raw

    • 特征:
      • title: 字符串
      • categories: 字符串
      • summary: 字符串
      • question: 字符串
      • answer: 字符串
      • batch_id: 字符串
    • 分割:
      • dev: 266295个样本, 600356136字节
      • test: 267751个样本, 572651444字节
    • 下载大小: 1204094848字节
    • 数据集大小: 1173007580字节
  • wikiomnia_ruT5_filtered

    • 特征:
      • title: 字符串
      • categories: 字符串
      • summary: 字符串
      • question: 字符串
      • answer: 字符串
      • batch_id: 字符串
    • 分割:
      • train: 2088027个样本, 4157093224字节
    • 下载大小: 4278635364字节
    • 数据集大小: 4157093224字节
  • wikiomnia_ruGPT3_filtered

    • 特征:
      • title: 字符串
      • categories: 字符串
      • summary: 字符串
      • question: 字符串
      • answer: 字符串
      • batch_id: 字符串
    • 分割:
      • train: 173314个样本, 338607635字节
    • 下载大小: 348694031字节
    • 数据集大小: 338607635字节
  • wikiomnia_ruGPT3_raw

    • 特征:
      • title: 字符串
      • categories: 字符串
      • summary: 字符串
      • question: 字符串
      • answer: 字符串
      • batch_id: 字符串
    • 分割:
      • train_batch1至train_batch20: 多个批次, 总样本数超过500万, 总字节数超过144亿
    • 下载大小: 14939875008字节
    • 数据集大小: 14490287727字节
  • wikiomnia_ruT5_raw_train

    • 特征:
      • title: 字符串
      • categories: 字符串
      • summary: 字符串
      • question: 字符串
      • answer: 字符串
      • batch_id: 字符串
    • 分割:
      • train_batch3至train_batch20: 多个批次, 总样本数超过500万, 总字节数超过142亿
    • 下载大小: 14634332336字节
    • 数据集大小: 14208032842字节

许可证

  • Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作