catalin1122/wiki-ro-qna

Name: catalin1122/wiki-ro-qna
Creator: catalin1122
Published: 2024-04-07 10:22:44
License: 暂无描述

Hugging Face2024-04-07 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/catalin1122/wiki-ro-qna

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过55万个问题和大约5.3万个段落。这些问题是通过ChatGPT 3.5 API构建的。数据集基于2020年6月的罗马尼亚维基百科转储，由Dumitrescu Stefan整理。保留的段落长度在100到410个单词之间（大约最多512个标记）。所有问题都保持相同的格式 - Intrebare: [段落中包含答案的一般问题]。如果发现某些问题与段落完全无关，例如Intrebare: 作者想说什么？，则应将其删除。

提供机构：

catalin1122

原始信息汇总

数据集概述

基本信息

许可证: MIT
任务类别:
- 表格问答
- 问答
语言: 罗马尼亚语
美观名称: Romanian Wikipedia QnA Sample - June 2020
大小类别: 100K<n<1M

数据集描述

问题数量: 超过550k
段落数量: 约53k
数据来源: 基于2020年6月的罗马尼亚语维基百科数据，由Dumitrescu Stefan整理
段落筛选: 保留长度在100至410字（约512最大令牌）之间的段落
问题格式: 统一格式为“Intrebare: [包含答案的一般问题]”
特殊情况: 存在完全相关的问题，如“Intrebare: What did the author wanted to say?”，此类问题应被删除

使用方法

加载数据集: 使用datasets库加载数据集
转换为Pandas DataFrame: 通过pandas库将数据集转换为DataFrame
提取问题列表: 从DataFrame中提取每个段落的问题列表
创建数据对象列表: 从DataFrame生成包含段落索引、问题列表和段落文本的列表

5,000+

优质数据集

54 个

任务类型

进入经典数据集