ejbejaranos/ScienticDatasetArxiv-phi3-Format
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ejbejaranos/ScienticDatasetArxiv-phi3-Format
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 312413079
num_examples: 210580
download_size: 127896908
dataset_size: 312413079
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Scientific Dataset Repository
Este repositorio contiene un conjunto de datos de conversaciones estructuradas, diseñado para ser utilizado en modelos de deep learning. El conjunto de datos está organizado y preparado para su uso en la plataforma Huggingface.
## Información del Conjunto de Datos
El conjunto de datos incluye las siguientes características:
- **conversations**:
- **from**: Tipo de dato: `string`. Indica el origen de la conversación.
- **value**: Tipo de dato: `string`. Contenido de la conversación.
- **text**: Tipo de dato: `string`. Texto adicional relacionado con la conversación.
### Divisiones del Conjunto de Datos
El conjunto de datos está dividido en los siguientes segmentos:
- **train**:
- **Tamaño en bytes**: 312,413,079
- **Número de ejemplos**: 210,580
### Tamaño del Conjunto de Datos
- **Tamaño de descarga**: 127,896,908 bytes
- **Tamaño total del conjunto de datos**: 312,413,079 bytes
### Configuraciones
El conjunto de datos tiene la siguiente configuración:
- **config_name**: `default`
- **Archivos de datos**:
- **División**: `train`
- **Ruta**: `data/train-*`
## Ejemplo de Uso
Aquí se muestra un ejemplo de cómo cargar y utilizar este conjunto de datos en Huggingface:
```python
from datasets import load_dataset
# Cargar el conjunto de datos
dataset = load_dataset('ejbejaranos/ScienticDatasetArxiv-phi3-Format', name='default')
# Acceder a la división de entrenamiento
train_dataset = dataset['train']
# Mostrar un ejemplo
print(train_dataset[0])
提供机构:
ejbejaranos
原始信息汇总
数据集概述
数据集特征
- conversations:
- from: 数据类型:
string - value: 数据类型:
string
- from: 数据类型:
- text: 数据类型:
string
数据集分割
- train:
- 字节大小: 312,413,079
- 示例数量: 210,580
数据集大小
- 下载大小: 127,896,908 bytes
- 总数据集大小: 312,413,079 bytes
配置信息
- config_name:
default- 数据文件:
- 分割:
train - 路径:
data/train-*
- 分割:
- 数据文件:



