somosnlp/medical_en_es_formato_chatML_Gemma

Name: somosnlp/medical_en_es_formato_chatML_Gemma
Creator: somosnlp
Published: 2024-03-21 07:01:55
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/medical_en_es_formato_chatML_Gemma

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - es - en size_categories: - 10K<n<100K task_categories: - text-classification dataset_info: features: - name: combination dtype: string - name: formatted_text dtype: string - name: len_token_gemma dtype: int64 splits: - name: train num_bytes: 57174914 num_examples: 16078 download_size: 27891712 dataset_size: 57174914 configs: - config_name: default data_files: - split: train path: data/train-* tags: - medical dataset: - somosnlp/medical_bilingual_en_es --- ## 1. Distribucion de tokens del dataset. La imagen muestra un histograma que representa la distribución de la longitud de tokens en un conjunto de entrenamiento filtrado para un modelo de procesamiento de lenguaje natural (NLP). El eje horizontal, titulado "Longitud de Tokens", muestra el rango de la cantidad de tokens por instancia de datos, que va de entre Mínimo: 97, Máximo: 2048 tokens. El eje vertical, titulado "Frecuencia", indica el número de instancias que caen dentro de cada intervalo de longitud de tokens. en el grafico se evidencia un pico aparente alrededor de los 500 a 750 tokens. La frecuencia disminuye progresivamente para longitudes mayores de 1000 tokens, indicando que hay menos instancias de datos con una longitud tan extensa. Esta distribución es útil para comprender el tamaño típico de las entradas de datos con las que el modelo trabajará más eficientemente, y sugiere que el modelo está optimizado o ajustado para manejar preferentemente textos de una longitud intermedia, lo cual es importante para ajustar los parámetros de procesamiento y mejorar la inferencia del modelo. <div style="display: flex; justify-content: center;"> <img src="https://cdn-uploads.huggingface.co/production/uploads/641b435ba5f876fe30c5ae0a/7uD91cnB_H-Cup8u40dWR.png" style="width: 50%; max-height: 550px;"> </div> ## 2. Formato convertido a chatml con tokens de gemma. Se realizo combinatorias de input y output: [[en,en], [en,es], [es,en], [es,es]]<br> Con esto se el da el poder a el usuario desde el system para tener el control de sus respuestas. ``` <bos><start_of_turn>system You are a helpful AI assistant. Responde en formato json. Eres un agente experto en medicina. Lista de codigos linguisticos disponibles: ["en", "en"]<end_of_turn> <start_of_turn>user CHIEF COMPLAINT:, Right shoulder pain.,HISTORY OF PRESENT PROBLEM:<end_of_turn> <start_of_turn>model { "description": "Consultation for right shoulder pain.", "medical_specialty": "Consult - History and Phy.", "principal_diagnostic": "Shoulder Pain Consult" }<end_of_turn><eos> ``` ``` <bos><start_of_turn>system You are a helpful AI assistant. Responde en formato json. Eres un agente experto en medicina. Lista de codigos linguisticos disponibles: ["en", "es"]<end_of_turn> <start_of_turn>user CHIEF COMPLAINT:, Left wrist pain.,HISTORY OF PRESENT PROBLEM:,<end_of_turn> <start_of_turn>model { "description": "Consulta por dolor de muñeca.", "medical_specialty": "Quiropráctica", "principal_diagnostic": "Dolor de muñeca" }<end_of_turn><eos> ``` ``` <bos><start_of_turn>system You are a helpful AI assistant. Responde en formato json. Eres un agente experto en medicina. Lista de codigos linguisticos disponibles: ["es", "en"]<end_of_turn> <start_of_turn>user MOTIVO DE CONSULTA:, Dolor en la muñeca izquierda.,HISTORIA DEL PROBLEMA ACTUAL:<end_of_turn> <start_of_turn>model { "description": "Consultation for wrist pain.", "medical_specialty": "Chiropractic", "principal_diagnostic": "Wrist Pain" }<end_of_turn><eos> ``` ``` <bos><start_of_turn>system You are a helpful AI assistant. Responde en formato json. Eres un agente experto en medicina. Lista de codigos linguisticos disponibles: ["en", "en"]<end_of_turn> <start_of_turn>user INDICATIONS: ,Chest pain.,STRESS TECHNIQUE:,<end_of_turn> <start_of_turn>model { "description": "Thallium stress test for chest pain.", "medical_specialty": "Cardiovascular / Pulmonary", "principal_diagnostic": "Stress Test Thallium" }<end_of_turn><eos> ``` ## 3. Perfil. ``` https://huggingface.co/NickyNicky ``` ## 4. Conjunto de datos extraido de. ``` https://huggingface.co/datasets/somosnlp/medical_bilingual_en_es ``` ## 5. modelo entrenado con el conjunto de datos. ``` https://huggingface.co/somosnlp/Sam_Diagnostic ```

提供机构：

somosnlp

原始信息汇总

数据集概述

基本信息

语言: 西班牙语（es）、英语（en）
大小: 10K<n<100K
任务类别: 文本分类
标签: 医疗
数据集: somosnlp/medical_bilingual_en_es

数据集特征

combination: 字符串类型
formatted_text: 字符串类型
len_token_gemma: 整数类型（int64）

数据分割

训练集:
- 大小: 57174914字节
- 样本数: 16078

下载与数据集大小

下载大小: 27891712字节
数据集大小: 57174914字节

配置

默认配置:
- 数据文件:
  - 分割: 训练
  - 路径: data/train-*

数据集使用示例

输入输出组合: [[en,en], [en,es], [es,en], [es,es]]
示例格式: 转换为chatml格式，包含gemma的token
应用场景: 医疗咨询，模型响应格式为JSON，展示医疗专业知识

5,000+

优质数据集

54 个

任务类型

进入经典数据集