five

catalin1122/wiki-ro-qna

收藏
Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/catalin1122/wiki-ro-qna
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过55万个问题和大约5.3万个段落。这些问题是通过ChatGPT 3.5 API构建的。数据集基于2020年6月的罗马尼亚维基百科转储,由Dumitrescu Stefan整理。保留的段落长度在100到410个单词之间(大约最多512个标记)。所有问题都保持相同的格式 - Intrebare: [段落中包含答案的一般问题]。如果发现某些问题与段落完全无关,例如Intrebare: 作者想说什么?,则应将其删除。

该数据集包含超过55万个问题和大约5.3万个段落。这些问题是通过ChatGPT 3.5 API构建的。数据集基于2020年6月的罗马尼亚维基百科转储,由Dumitrescu Stefan整理。保留的段落长度在100到410个单词之间(大约最多512个标记)。所有问题都保持相同的格式 - Intrebare: [段落中包含答案的一般问题]。如果发现某些问题与段落完全无关,例如Intrebare: 作者想说什么?,则应将其删除。
提供机构:
catalin1122
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 表格问答
    • 问答
  • 语言: 罗马尼亚语
  • 美观名称: Romanian Wikipedia QnA Sample - June 2020
  • 大小类别: 100K<n<1M

数据集描述

  • 问题数量: 超过550k
  • 段落数量: 约53k
  • 数据来源: 基于2020年6月的罗马尼亚语维基百科数据,由Dumitrescu Stefan整理
  • 段落筛选: 保留长度在100至410字(约512最大令牌)之间的段落
  • 问题格式: 统一格式为“Intrebare: [包含答案的一般问题]”
  • 特殊情况: 存在完全相关的问题,如“Intrebare: What did the author wanted to say?”,此类问题应被删除

使用方法

  • 加载数据集: 使用datasets库加载数据集
  • 转换为Pandas DataFrame: 通过pandas库将数据集转换为DataFrame
  • 提取问题列表: 从DataFrame中提取每个段落的问题列表
  • 创建数据对象列表: 从DataFrame生成包含段落索引、问题列表和段落文本的列表
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作