five

bio-datasets/e3c-llm

收藏
Hugging Face2023-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bio-datasets/e3c-llm
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用大型语言模型(LLM)标注的E3C临床文本语料库,主要用于命名实体识别(NER)任务。
提供机构:
bio-datasets
原始信息汇总

数据集概述

数据集名称

  • E3C

数据集配置名称

  • e3c-llm

数据集特征

  • text: 数据类型为字符串。
  • tokens_offsets: 序列类型,数据类型为int32。
  • clinical_entity_tags: 序列类型,包含分类标签,标签名称为:
    • 0: O
    • 1: B-CLINENTITY
    • 2: I-CLINENTITY

数据集分割

  • en_layer1: 1520个示例,大小为768555字节。
  • en_layer2_validation: 334个示例,大小为175089字节。
  • fr_layer1: 1109个示例,大小为758368字节。
  • eu_layer2: 1594个示例,大小为503182字节。
  • eu_layer2_validation: 468个示例,大小为131870字节。
  • it_layer2: 2436个示例,大小为1590730字节。
  • es_layer2_validation: 261个示例,大小为166201字节。
  • fr_layer2_validation: 293个示例,大小为170233字节。
  • es_layer2: 2347个示例,大小为1506040字节。
  • en_layer2: 2873个示例,大小为1539228字节。
  • fr_layer2: 2389个示例,大小为1583560字节。
  • eu_layer1: 3126个示例,大小为910983字节。
  • it_layer1: 1145个示例,大小为768769字节。
  • es_layer1: 1134个示例,大小为754628字节。
  • it_layer2_validation: 275个示例,大小为172651字节。

数据集大小

  • 下载大小: 0字节
  • 数据集总大小: 11500087字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作