five

enelpol/rag-mini-bioasq-with-metadata

收藏
Hugging Face2024-07-17 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/enelpol/rag-mini-bioasq-with-metadata
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是[rag-mini-bioasq](https://huggingface.co/datasets/enelpol/rag-mini-bioasq)数据集的扩展版本,主要区别在于`text-corpus`部分,该部分为每个段落添加了元数据。元数据包含六个独立的类别,每个类别都有专门的列:出版年份(`publish_year`)、出版物类型(`publish_type`)、出版国家(`country`)、页数(`no_pages`)、作者(`authors`)和关键词(`keywords`)。数据集包含两个配置:`question-answer-passages`和`text-corpus`,分别用于问答和文本语料库任务。

This dataset is an extension of the rag-mini-bioasq dataset, containing the text-corpus part along with metadata for each passage. The metadata includes six categories: year of publication, type of publication, country of publication, number of pages, authors, and keywords. The dataset supports question-answering and sentence-similarity tasks, is in English, and is licensed under cc-by-2.5. It includes a test set with 40181 samples, totaling 76616396 bytes.
提供机构:
enelpol
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: CC-BY-2.5
  • 任务类别:
    • 问答
    • 句子相似度

数据集配置

配置1: question-answer-passages

  • 特征:
    • question: 问题 (字符串)
    • answer: 答案 (字符串)
    • id: 标识符 (整数)
    • relevant_passage_ids: 相关段落ID (整数序列)
  • 分割:
    • train:
      • 字节数: 1630368
      • 样本数: 4012
    • test:
      • 字节数: 270274
      • 样本数: 707
  • 下载大小: 1309572 字节
  • 数据集大小: 1900642 字节
  • 数据文件:
    • train: question-answer-passages/train-*
    • test: question-answer-passages/test-*

配置2: text-corpus

  • 特征:
    • passage: 段落 (字符串)
    • id: 标识符 (整数)
    • authors: 作者 (字符串序列)
    • publish_year: 出版年份 (整数)
    • no_pages: 页数 (整数)
    • keywords: 关键词 (字符串序列)
    • country: 出版国家 (字符串)
    • publish_type: 出版类型 (字符串序列)
  • 分割:
    • test:
      • 字节数: 78569438
      • 样本数: 40181
  • 下载大小: 42283621 字节
  • 数据集大小: 78569438 字节
  • 数据文件:
    • test: text-corpus/test-*

标签

  • biology
  • medical
  • rag
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作