enelpol/rag-mini-bioasq-with-metadata
收藏Hugging Face2024-07-17 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/enelpol/rag-mini-bioasq-with-metadata
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[rag-mini-bioasq](https://huggingface.co/datasets/enelpol/rag-mini-bioasq)数据集的扩展版本,主要区别在于`text-corpus`部分,该部分为每个段落添加了元数据。元数据包含六个独立的类别,每个类别都有专门的列:出版年份(`publish_year`)、出版物类型(`publish_type`)、出版国家(`country`)、页数(`no_pages`)、作者(`authors`)和关键词(`keywords`)。数据集包含两个配置:`question-answer-passages`和`text-corpus`,分别用于问答和文本语料库任务。
This dataset is an extension of the rag-mini-bioasq dataset, containing the text-corpus part along with metadata for each passage. The metadata includes six categories: year of publication, type of publication, country of publication, number of pages, authors, and keywords. The dataset supports question-answering and sentence-similarity tasks, is in English, and is licensed under cc-by-2.5. It includes a test set with 40181 samples, totaling 76616396 bytes.
提供机构:
enelpol
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: CC-BY-2.5
- 任务类别:
- 问答
- 句子相似度
数据集配置
配置1: question-answer-passages
- 特征:
question: 问题 (字符串)answer: 答案 (字符串)id: 标识符 (整数)relevant_passage_ids: 相关段落ID (整数序列)
- 分割:
train:- 字节数: 1630368
- 样本数: 4012
test:- 字节数: 270274
- 样本数: 707
- 下载大小: 1309572 字节
- 数据集大小: 1900642 字节
- 数据文件:
train: question-answer-passages/train-*test: question-answer-passages/test-*
配置2: text-corpus
- 特征:
passage: 段落 (字符串)id: 标识符 (整数)authors: 作者 (字符串序列)publish_year: 出版年份 (整数)no_pages: 页数 (整数)keywords: 关键词 (字符串序列)country: 出版国家 (字符串)publish_type: 出版类型 (字符串序列)
- 分割:
test:- 字节数: 78569438
- 样本数: 40181
- 下载大小: 42283621 字节
- 数据集大小: 78569438 字节
- 数据文件:
test: text-corpus/test-*
标签
- biology
- medical
- rag



