finiteautomata/meddocan
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/finiteautomata/meddocan
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: document_id
dtype: string
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-FECHAS
'2': I-FECHAS
'3': B-CENTRO_SALUD
'4': I-CENTRO_SALUD
'5': B-NOMBRE_SUJETO_ASISTENCIA
'6': I-NOMBRE_SUJETO_ASISTENCIA
'7': B-PAIS
'8': I-PAIS
'9': B-INSTITUCION
'10': I-INSTITUCION
'11': B-ID_TITULACION_PERSONAL_SANITARIO
'12': I-ID_TITULACION_PERSONAL_SANITARIO
'13': B-CALLE
'14': I-CALLE
'15': B-ID_SUJETO_ASISTENCIA
'16': I-ID_SUJETO_ASISTENCIA
'17': B-ID_ASEGURAMIENTO
'18': I-ID_ASEGURAMIENTO
'19': B-ID_EMPLEO_PERSONAL_SANITARIO
'20': I-ID_EMPLEO_PERSONAL_SANITARIO
'21': B-TERRITORIO
'22': I-TERRITORIO
'23': B-SEXO_SUJETO_ASISTENCIA
'24': I-SEXO_SUJETO_ASISTENCIA
'25': B-CORREO_ELECTRONICO
'26': I-CORREO_ELECTRONICO
'27': B-HOSPITAL
'28': I-HOSPITAL
'29': B-FAMILIARES_SUJETO_ASISTENCIA
'30': I-FAMILIARES_SUJETO_ASISTENCIA
'31': B-NUMERO_FAX
'32': I-NUMERO_FAX
'33': B-OTROS_SUJETO_ASISTENCIA
'34': I-OTROS_SUJETO_ASISTENCIA
'35': B-NUMERO_TELEFONO
'36': I-NUMERO_TELEFONO
'37': B-NOMBRE_PERSONAL_SANITARIO
'38': I-NOMBRE_PERSONAL_SANITARIO
'39': B-PROFESION
'40': I-PROFESION
'41': B-EDAD_SUJETO_ASISTENCIA
'42': I-EDAD_SUJETO_ASISTENCIA
'43': B-ID_CONTACTO_ASISTENCIAL
'44': I-ID_CONTACTO_ASISTENCIAL
splits:
- name: train
num_bytes: 9141826
num_examples: 4731
- name: validation
num_bytes: 4826850
num_examples: 2469
- name: test
num_bytes: 4586544
num_examples: 2374
download_size: 1876568
dataset_size: 18555220
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
# Dataset Card for "meddocan"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
finiteautomata
原始信息汇总
数据集概述
特征信息
- id: 字符串类型
- document_id: 字符串类型
- tokens: 字符串序列
- ner_tags: 标签序列,包含以下类别:
- 0: O
- 1: B-FECHAS
- 2: I-FECHAS
- 3: B-CENTRO_SALUD
- 4: I-CENTRO_SALUD
- 5: B-NOMBRE_SUJETO_ASISTENCIA
- 6: I-NOMBRE_SUJETO_ASISTENCIA
- 7: B-PAIS
- 8: I-PAIS
- 9: B-INSTITUCION
- 10: I-INSTITUCION
- 11: B-ID_TITULACION_PERSONAL_SANITARIO
- 12: I-ID_TITULACION_PERSONAL_SANITARIO
- 13: B-CALLE
- 14: I-CALLE
- 15: B-ID_SUJETO_ASISTENCIA
- 16: I-ID_SUJETO_ASISTENCIA
- 17: B-ID_ASEGURAMIENTO
- 18: I-ID_ASEGURAMIENTO
- 19: B-ID_EMPLEO_PERSONAL_SANITARIO
- 20: I-ID_EMPLEO_PERSONAL_SANITARIO
- 21: B-TERRITORIO
- 22: I-TERRITORIO
- 23: B-SEXO_SUJETO_ASISTENCIA
- 24: I-SEXO_SUJETO_ASISTENCIA
- 25: B-CORREO_ELECTRONICO
- 26: I-CORREO_ELECTRONICO
- 27: B-HOSPITAL
- 28: I-HOSPITAL
- 29: B-FAMILIARES_SUJETO_ASISTENCIA
- 30: I-FAMILIARES_SUJETO_ASISTENCIA
- 31: B-NUMERO_FAX
- 32: I-NUMERO_FAX
- 33: B-OTROS_SUJETO_ASISTENCIA
- 34: I-OTROS_SUJETO_ASISTENCIA
- 35: B-NUMERO_TELEFONO
- 36: I-NUMERO_TELEFONO
- 37: B-NOMBRE_PERSONAL_SANITARIO
- 38: I-NOMBRE_PERSONAL_SANITARIO
- 39: B-PROFESION
- 40: I-PROFESION
- 41: B-EDAD_SUJETO_ASISTENCIA
- 42: I-EDAD_SUJETO_ASISTENCIA
- 43: B-ID_CONTACTO_ASISTENCIAL
- 44: I-ID_CONTACTO_ASISTENCIAL
数据分割
- train: 包含4731个样本,占用9141826字节
- validation: 包含2469个样本,占用4826850字节
- test: 包含2374个样本,占用4586544字节
数据集大小
- 下载大小: 1876568字节
- 数据集大小: 18555220字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- data_files:



