bio-datasets/e3c-llm
收藏Hugging Face2023-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bio-datasets/e3c-llm
下载链接
链接失效反馈官方服务:
资源简介:
这是一个使用大型语言模型(LLM)标注的E3C临床文本语料库,主要用于命名实体识别(NER)任务。
提供机构:
bio-datasets
原始信息汇总
数据集概述
数据集名称
- E3C
数据集配置名称
- e3c-llm
数据集特征
- text: 数据类型为字符串。
- tokens_offsets: 序列类型,数据类型为int32。
- clinical_entity_tags: 序列类型,包含分类标签,标签名称为:
- 0: O
- 1: B-CLINENTITY
- 2: I-CLINENTITY
数据集分割
- en_layer1: 1520个示例,大小为768555字节。
- en_layer2_validation: 334个示例,大小为175089字节。
- fr_layer1: 1109个示例,大小为758368字节。
- eu_layer2: 1594个示例,大小为503182字节。
- eu_layer2_validation: 468个示例,大小为131870字节。
- it_layer2: 2436个示例,大小为1590730字节。
- es_layer2_validation: 261个示例,大小为166201字节。
- fr_layer2_validation: 293个示例,大小为170233字节。
- es_layer2: 2347个示例,大小为1506040字节。
- en_layer2: 2873个示例,大小为1539228字节。
- fr_layer2: 2389个示例,大小为1583560字节。
- eu_layer1: 3126个示例,大小为910983字节。
- it_layer1: 1145个示例,大小为768769字节。
- es_layer1: 1134个示例,大小为754628字节。
- it_layer2_validation: 275个示例,大小为172651字节。
数据集大小
- 下载大小: 0字节
- 数据集总大小: 11500087字节



