five

ejbejaranos/ScienticDatasetArxiv-phi3-Format

收藏
Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ejbejaranos/ScienticDatasetArxiv-phi3-Format
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: from dtype: string - name: value dtype: string - name: text dtype: string splits: - name: train num_bytes: 312413079 num_examples: 210580 download_size: 127896908 dataset_size: 312413079 configs: - config_name: default data_files: - split: train path: data/train-* --- # Scientific Dataset Repository Este repositorio contiene un conjunto de datos de conversaciones estructuradas, diseñado para ser utilizado en modelos de deep learning. El conjunto de datos está organizado y preparado para su uso en la plataforma Huggingface. ## Información del Conjunto de Datos El conjunto de datos incluye las siguientes características: - **conversations**: - **from**: Tipo de dato: `string`. Indica el origen de la conversación. - **value**: Tipo de dato: `string`. Contenido de la conversación. - **text**: Tipo de dato: `string`. Texto adicional relacionado con la conversación. ### Divisiones del Conjunto de Datos El conjunto de datos está dividido en los siguientes segmentos: - **train**: - **Tamaño en bytes**: 312,413,079 - **Número de ejemplos**: 210,580 ### Tamaño del Conjunto de Datos - **Tamaño de descarga**: 127,896,908 bytes - **Tamaño total del conjunto de datos**: 312,413,079 bytes ### Configuraciones El conjunto de datos tiene la siguiente configuración: - **config_name**: `default` - **Archivos de datos**: - **División**: `train` - **Ruta**: `data/train-*` ## Ejemplo de Uso Aquí se muestra un ejemplo de cómo cargar y utilizar este conjunto de datos en Huggingface: ```python from datasets import load_dataset # Cargar el conjunto de datos dataset = load_dataset('ejbejaranos/ScienticDatasetArxiv-phi3-Format', name='default') # Acceder a la división de entrenamiento train_dataset = dataset['train'] # Mostrar un ejemplo print(train_dataset[0])
提供机构:
ejbejaranos
原始信息汇总

数据集概述

数据集特征

  • conversations:
    • from: 数据类型: string
    • value: 数据类型: string
  • text: 数据类型: string

数据集分割

  • train:
    • 字节大小: 312,413,079
    • 示例数量: 210,580

数据集大小

  • 下载大小: 127,896,908 bytes
  • 总数据集大小: 312,413,079 bytes

配置信息

  • config_name: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作