RussianNLP/wikiomnia
收藏Hugging Face2023-04-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RussianNLP/wikiomnia
下载链接
链接失效反馈官方服务:
资源简介:
WikiOmnia数据集是一个公开的问答对数据集,基于俄罗斯维基百科的文章生成。数据集包含两部分:自动生成的大量数据(约1590万条)和经过严格自动验证的过滤数据(约350万条)。每条数据包括原始文章摘要、生成的问题和生成的答案,遵循SQuAD格式。数据集用于问答系统的训练和评估,适用于新闻、小说和社交媒体等其他领域。
提供机构:
RussianNLP
原始信息汇总
数据集概述
数据集名称
- WikiOmnia
数据集配置
-
wikiomnia_ruT5_raw
- 特征:
- title: 字符串
- categories: 字符串
- summary: 字符串
- question: 字符串
- answer: 字符串
- batch_id: 字符串
- 分割:
- dev: 266295个样本, 600356136字节
- test: 267751个样本, 572651444字节
- 下载大小: 1204094848字节
- 数据集大小: 1173007580字节
- 特征:
-
wikiomnia_ruT5_filtered
- 特征:
- title: 字符串
- categories: 字符串
- summary: 字符串
- question: 字符串
- answer: 字符串
- batch_id: 字符串
- 分割:
- train: 2088027个样本, 4157093224字节
- 下载大小: 4278635364字节
- 数据集大小: 4157093224字节
- 特征:
-
wikiomnia_ruGPT3_filtered
- 特征:
- title: 字符串
- categories: 字符串
- summary: 字符串
- question: 字符串
- answer: 字符串
- batch_id: 字符串
- 分割:
- train: 173314个样本, 338607635字节
- 下载大小: 348694031字节
- 数据集大小: 338607635字节
- 特征:
-
wikiomnia_ruGPT3_raw
- 特征:
- title: 字符串
- categories: 字符串
- summary: 字符串
- question: 字符串
- answer: 字符串
- batch_id: 字符串
- 分割:
- train_batch1至train_batch20: 多个批次, 总样本数超过500万, 总字节数超过144亿
- 下载大小: 14939875008字节
- 数据集大小: 14490287727字节
- 特征:
-
wikiomnia_ruT5_raw_train
- 特征:
- title: 字符串
- categories: 字符串
- summary: 字符串
- question: 字符串
- answer: 字符串
- batch_id: 字符串
- 分割:
- train_batch3至train_batch20: 多个批次, 总样本数超过500万, 总字节数超过142亿
- 下载大小: 14634332336字节
- 数据集大小: 14208032842字节
- 特征:
许可证
- Apache-2.0



