bio-datasets/e3c
收藏Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bio-datasets/e3c
下载链接
链接失效反馈官方服务:
资源简介:
欧洲临床案例语料库(E3C)项目旨在收集和注释五种欧洲语言(西班牙语、巴斯克语、英语、法语和意大利语)的大量临床文档,并将免费分发。注释包括时间信息,以允许对时间序列进行推理,以及基于医学分类的临床实体信息,用于语义推理。
提供机构:
bio-datasets
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- document_id: 整数类型(int32)
- text: 字符串类型
- passages: 列表类型,包含:
- id: 字符串类型
- text: 字符串类型
- offsets: 整数列表(int32)
- entities: 列表类型,包含:
- id: 字符串类型
- type: 字符串类型
- text: 字符串类型
- offsets: 整数列表(int32)
- semantic_type_id: 字符串类型
- role: 字符串类型
- relations: 列表类型,包含:
- id: 字符串类型
- type: 字符串类型
- contextualAspect: 字符串类型
- contextualModality: 字符串类型
- degree: 字符串类型
- docTimeRel: 字符串类型
- eventType: 字符串类型
- permanence: 字符串类型
- polarity: 字符串类型
- functionInDocument: 字符串类型
- timex3Class: 字符串类型
- value: 字符串类型
- concept_1: 字符串类型
- concept_2: 字符串类型
数据集配置名称
- config_name: e3c_source
数据集分割
- en.layer1: 1645819字节,84个样本
- en.layer2: 881290字节,171个样本
- en.layer2.validation: 101379字节,19个样本
- en.layer3: 7672589字节,9779个样本
- es.layer1: 1398186字节,81个样本
- es.layer2: 907515字节,162个样本
- es.layer2.validation: 103936字节,18个样本
- es.layer3: 6656630字节,1876个样本
- eu.layer1: 2217479字节,90个样本
- eu.layer2: 306291字节,111个样本
- eu.layer2.validation: 95276字节,10个样本
- eu.layer3: 4656179字节,1232个样本
- fr.layer1: 1474138字节,81个样本
- fr.layer2: 905084字节,168个样本
- fr.layer2.validation: 101701字节,18个样本
- fr.layer3: 457927491字节,25740个样本
- it.layer1: 1036560字节,86个样本
- it.layer2: 888138字节,174个样本
- it.layer2.validation: 99549字节,18个样本
- it.layer3: 86243680字节,10213个样本
数据集大小
- download_size: 230213492字节
- dataset_size: 575318910字节



