ejbejaranos/ScienticDatasetArxiv-phi3-Format

Name: ejbejaranos/ScienticDatasetArxiv-phi3-Format
Creator: ejbejaranos
Published: 2024-05-28 08:14:28
License: 暂无描述

Hugging Face2024-05-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ejbejaranos/ScienticDatasetArxiv-phi3-Format

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: from dtype: string - name: value dtype: string - name: text dtype: string splits: - name: train num_bytes: 312413079 num_examples: 210580 download_size: 127896908 dataset_size: 312413079 configs: - config_name: default data_files: - split: train path: data/train-* --- # Scientific Dataset Repository Este repositorio contiene un conjunto de datos de conversaciones estructuradas, diseñado para ser utilizado en modelos de deep learning. El conjunto de datos está organizado y preparado para su uso en la plataforma Huggingface. ## Información del Conjunto de Datos El conjunto de datos incluye las siguientes características: - **conversations**: - **from**: Tipo de dato: `string`. Indica el origen de la conversación. - **value**: Tipo de dato: `string`. Contenido de la conversación. - **text**: Tipo de dato: `string`. Texto adicional relacionado con la conversación. ### Divisiones del Conjunto de Datos El conjunto de datos está dividido en los siguientes segmentos: - **train**: - **Tamaño en bytes**: 312,413,079 - **Número de ejemplos**: 210,580 ### Tamaño del Conjunto de Datos - **Tamaño de descarga**: 127,896,908 bytes - **Tamaño total del conjunto de datos**: 312,413,079 bytes ### Configuraciones El conjunto de datos tiene la siguiente configuración: - **config_name**: `default` - **Archivos de datos**: - **División**: `train` - **Ruta**: `data/train-*` ## Ejemplo de Uso Aquí se muestra un ejemplo de cómo cargar y utilizar este conjunto de datos en Huggingface: ```python from datasets import load_dataset # Cargar el conjunto de datos dataset = load_dataset('ejbejaranos/ScienticDatasetArxiv-phi3-Format', name='default') # Acceder a la división de entrenamiento train_dataset = dataset['train'] # Mostrar un ejemplo print(train_dataset[0])

提供机构：

ejbejaranos

原始信息汇总

数据集概述

数据集特征

conversations:
- from: 数据类型: string
- value: 数据类型: string
text: 数据类型: string

数据集分割

train:
- 字节大小: 312,413,079
- 示例数量: 210,580

数据集大小

下载大小: 127,896,908 bytes
总数据集大小: 312,413,079 bytes

配置信息

config_name: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集