five

bio-datasets/e3c

收藏
Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bio-datasets/e3c
下载链接
链接失效反馈
官方服务:
资源简介:
欧洲临床案例语料库(E3C)项目旨在收集和注释五种欧洲语言(西班牙语、巴斯克语、英语、法语和意大利语)的大量临床文档,并将免费分发。注释包括时间信息,以允许对时间序列进行推理,以及基于医学分类的临床实体信息,用于语义推理。
提供机构:
bio-datasets
原始信息汇总

数据集概述

数据集特征

  • id: 字符串类型
  • document_id: 整数类型(int32)
  • text: 字符串类型
  • passages: 列表类型,包含:
    • id: 字符串类型
    • text: 字符串类型
    • offsets: 整数列表(int32)
  • entities: 列表类型,包含:
    • id: 字符串类型
    • type: 字符串类型
    • text: 字符串类型
    • offsets: 整数列表(int32)
    • semantic_type_id: 字符串类型
    • role: 字符串类型
  • relations: 列表类型,包含:
    • id: 字符串类型
    • type: 字符串类型
    • contextualAspect: 字符串类型
    • contextualModality: 字符串类型
    • degree: 字符串类型
    • docTimeRel: 字符串类型
    • eventType: 字符串类型
    • permanence: 字符串类型
    • polarity: 字符串类型
    • functionInDocument: 字符串类型
    • timex3Class: 字符串类型
    • value: 字符串类型
    • concept_1: 字符串类型
    • concept_2: 字符串类型

数据集配置名称

  • config_name: e3c_source

数据集分割

  • en.layer1: 1645819字节,84个样本
  • en.layer2: 881290字节,171个样本
  • en.layer2.validation: 101379字节,19个样本
  • en.layer3: 7672589字节,9779个样本
  • es.layer1: 1398186字节,81个样本
  • es.layer2: 907515字节,162个样本
  • es.layer2.validation: 103936字节,18个样本
  • es.layer3: 6656630字节,1876个样本
  • eu.layer1: 2217479字节,90个样本
  • eu.layer2: 306291字节,111个样本
  • eu.layer2.validation: 95276字节,10个样本
  • eu.layer3: 4656179字节,1232个样本
  • fr.layer1: 1474138字节,81个样本
  • fr.layer2: 905084字节,168个样本
  • fr.layer2.validation: 101701字节,18个样本
  • fr.layer3: 457927491字节,25740个样本
  • it.layer1: 1036560字节,86个样本
  • it.layer2: 888138字节,174个样本
  • it.layer2.validation: 99549字节,18个样本
  • it.layer3: 86243680字节,10213个样本

数据集大小

  • download_size: 230213492字节
  • dataset_size: 575318910字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作