YufeiHFUT/GDA_with_RAG_similar
收藏Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/YufeiHFUT/GDA_with_RAG_similar
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: pmid
dtype: string
- name: title
dtype: string
- name: abstract
dtype: string
- name: revised_title
dtype: string
- name: revised_abstract
dtype: string
- name: all_entity_list
list:
- name: begin_idx
dtype: string
- name: end_idx
dtype: string
- name: entity_id
dtype: string
- name: entity_type
dtype: string
- name: text_name
dtype: string
- name: head_gene_entity
struct:
- name: begin_idx
dtype: string
- name: end_idx
dtype: string
- name: entity_id
dtype: string
- name: entity_type
dtype: string
- name: text_name
dtype: string
- name: tail_diease_entity
struct:
- name: begin_idx
dtype: string
- name: end_idx
dtype: string
- name: entity_id
dtype: string
- name: entity_type
dtype: string
- name: text_name
dtype: string
- name: label
dtype: string
splits:
- name: test
num_bytes: 11428879
num_examples: 2687
download_size: 2508142
dataset_size: 11428879
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
数据集信息:
特征:
- 名称:PubMed编号(PubMed ID, PMID),数据类型:字符串
- 名称:标题(title),数据类型:字符串
- 名称:摘要(abstract),数据类型:字符串
- 名称:修订后标题(revised_title),数据类型:字符串
- 名称:修订后摘要(revised_abstract),数据类型:字符串
- 名称:全实体列表(all_entity_list),数据类型:列表,其内部元素为结构体,包含:
- 起始索引(begin_idx):字符串类型
- 结束索引(end_idx):字符串类型
- 实体(entity)ID(entity_id):字符串类型
- 实体(entity)类型(entity_type):字符串类型
- 文本名称(text_name):字符串类型
- 名称:头端基因实体(head_gene_entity),数据类型:结构体,包含:
- 起始索引(begin_idx):字符串类型
- 结束索引(end_idx):字符串类型
- 实体(entity)ID(entity_id):字符串类型
- 实体(entity)类型(entity_type):字符串类型
- 文本名称(text_name):字符串类型
- 名称:尾端疾病实体(tail_disease_entity),数据类型:结构体,包含:
- 起始索引(begin_idx):字符串类型
- 结束索引(end_idx):字符串类型
- 实体(entity)ID(entity_id):字符串类型
- 实体(entity)类型(entity_type):字符串类型
- 文本名称(text_name):字符串类型
- 名称:标签(label),数据类型:字符串
数据集划分:
- 划分名称:测试集(test),字节大小:11428879,样本数量:2687
下载大小:2508142,数据集总大小:11428879
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分:测试集,路径:data/test-*
提供机构:
YufeiHFUT
原始信息汇总
数据集概述
数据集特征
- pmid: 数据类型 - 字符串
- title: 数据类型 - 字符串
- abstract: 数据类型 - 字符串
- revised_title: 数据类型 - 字符串
- revised_abstract: 数据类型 - 字符串
- all_entity_list: 列表类型,包含以下字段:
- begin_idx: 数据类型 - 字符串
- end_idx: 数据类型 - 字符串
- entity_id: 数据类型 - 字符串
- entity_type: 数据类型 - 字符串
- text_name: 数据类型 - 字符串
- head_gene_entity: 结构类型,包含以下字段:
- begin_idx: 数据类型 - 字符串
- end_idx: 数据类型 - 字符串
- entity_id: 数据类型 - 字符串
- entity_type: 数据类型 - 字符串
- text_name: 数据类型 - 字符串
- tail_disease_entity: 结构类型,包含以下字段:
- begin_idx: 数据类型 - 字符串
- end_idx: 数据类型 - 字符串
- entity_id: 数据类型 - 字符串
- entity_type: 数据类型 - 字符串
- text_name: 数据类型 - 字符串
- label: 数据类型 - 字符串
数据集分割
- test:
- 字节数: 11428879
- 示例数: 2687
数据集大小
- 下载大小: 2508142字节
- 数据集大小: 11428879字节
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- split: test
- data_files:



