YufeiHFUT/CDR_with_all_info
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/YufeiHFUT/CDR_with_all_info
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: label
dtype: string
- name: revised_title
dtype: string
- name: revised_abstract
dtype: string
- name: head_chemical_entName
dtype: string
- name: head_entity_dict
struct:
- name: id
dtype: string
- name: normalized
list:
- name: db_id
dtype: string
- name: db_name
dtype: string
- name: offsets
sequence:
sequence: int64
- name: text
sequence: string
- name: type
dtype: string
- name: tail_disease_entName
dtype: string
- name: tail_entity_dict
struct:
- name: id
dtype: string
- name: normalized
list:
- name: db_id
dtype: string
- name: db_name
dtype: string
- name: offsets
sequence:
sequence: int64
- name: text
sequence: string
- name: type
dtype: string
- name: chemical_entitiesList
list:
- name: id
dtype: string
- name: normalized
list:
- name: db_id
dtype: string
- name: db_name
dtype: string
- name: offsets
sequence:
sequence: int64
- name: text
sequence: string
- name: type
dtype: string
- name: disease_entitiesList
list:
- name: id
dtype: string
- name: normalized
list:
- name: db_id
dtype: string
- name: db_name
dtype: string
- name: offsets
sequence:
sequence: int64
- name: text
sequence: string
- name: type
dtype: string
- name: origin_title
dtype: string
- name: origin_abstract
dtype: string
splits:
- name: train
num_bytes: 13560297
num_examples: 2047
- name: validation
num_bytes: 13291790
num_examples: 2007
- name: test
num_bytes: 13793834
num_examples: 2040
- name: test_oneshot
num_bytes: 14983154
num_examples: 2040
- name: test_twoshot
num_bytes: 16070474
num_examples: 2040
download_size: 11565285
dataset_size: 71699549
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
- split: test_oneshot
path: data/test_oneshot-*
- split: test_twoshot
path: data/test_twoshot-*
---
提供机构:
YufeiHFUT
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- label: 数据类型为字符串。
- revised_title: 数据类型为字符串。
- revised_abstract: 数据类型为字符串。
- head_chemical_entName: 数据类型为字符串。
- head_entity_dict: 结构化数据,包含以下字段:
- id: 数据类型为字符串。
- normalized: 列表,包含:
- db_id: 数据类型为字符串。
- db_name: 数据类型为字符串。
- offsets: 序列,序列元素为int64。
- text: 序列,序列元素为字符串。
- type: 数据类型为字符串。
- tail_disease_entName: 数据类型为字符串。
- tail_entity_dict: 结构化数据,包含以下字段:
- id: 数据类型为字符串。
- normalized: 列表,包含:
- db_id: 数据类型为字符串。
- db_name: 数据类型为字符串。
- offsets: 序列,序列元素为int64。
- text: 序列,序列元素为字符串。
- type: 数据类型为字符串。
- chemical_entitiesList: 列表,包含以下字段:
- id: 数据类型为字符串。
- normalized: 列表,包含:
- db_id: 数据类型为字符串。
- db_name: 数据类型为字符串。
- offsets: 序列,序列元素为int64。
- text: 序列,序列元素为字符串。
- type: 数据类型为字符串。
- disease_entitiesList: 列表,包含以下字段:
- id: 数据类型为字符串。
- normalized: 列表,包含:
- db_id: 数据类型为字符串。
- db_name: 数据类型为字符串。
- offsets: 序列,序列元素为int64。
- text: 序列,序列元素为字符串。
- type: 数据类型为字符串。
- origin_title: 数据类型为字符串。
- origin_abstract: 数据类型为字符串。
数据集分割
- train: 大小为13560297字节,包含2047个样本。
- validation: 大小为13291790字节,包含2007个样本。
- test: 大小为13793834字节,包含2040个样本。
- test_oneshot: 大小为14983154字节,包含2040个样本。
- test_twoshot: 大小为16070474字节,包含2040个样本。
数据集大小
- 下载大小: 11565285字节。
- 数据集总大小: 71699549字节。
配置文件
- config_name: default
- data_files:
- train: 路径为data/train-*
- validation: 路径为data/validation-*
- test: 路径为data/test-*
- test_oneshot: 路径为data/test_oneshot-*
- test_twoshot: 路径为data/test_twoshot-*



