catalin1122/wiki-ro-qna
收藏Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/catalin1122/wiki-ro-qna
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过55万个问题和大约5.3万个段落。这些问题是通过ChatGPT 3.5 API构建的。数据集基于2020年6月的罗马尼亚维基百科转储,由Dumitrescu Stefan整理。保留的段落长度在100到410个单词之间(大约最多512个标记)。所有问题都保持相同的格式 - Intrebare: [段落中包含答案的一般问题]。如果发现某些问题与段落完全无关,例如Intrebare: 作者想说什么?,则应将其删除。
该数据集包含超过55万个问题和大约5.3万个段落。这些问题是通过ChatGPT 3.5 API构建的。数据集基于2020年6月的罗马尼亚维基百科转储,由Dumitrescu Stefan整理。保留的段落长度在100到410个单词之间(大约最多512个标记)。所有问题都保持相同的格式 - Intrebare: [段落中包含答案的一般问题]。如果发现某些问题与段落完全无关,例如Intrebare: 作者想说什么?,则应将其删除。
提供机构:
catalin1122
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 表格问答
- 问答
- 语言: 罗马尼亚语
- 美观名称: Romanian Wikipedia QnA Sample - June 2020
- 大小类别: 100K<n<1M
数据集描述
- 问题数量: 超过550k
- 段落数量: 约53k
- 数据来源: 基于2020年6月的罗马尼亚语维基百科数据,由Dumitrescu Stefan整理
- 段落筛选: 保留长度在100至410字(约512最大令牌)之间的段落
- 问题格式: 统一格式为“Intrebare: [包含答案的一般问题]”
- 特殊情况: 存在完全相关的问题,如“Intrebare: What did the author wanted to say?”,此类问题应被删除
使用方法
- 加载数据集: 使用
datasets库加载数据集 - 转换为Pandas DataFrame: 通过
pandas库将数据集转换为DataFrame - 提取问题列表: 从DataFrame中提取每个段落的问题列表
- 创建数据对象列表: 从DataFrame生成包含段落索引、问题列表和段落文本的列表



