jordiruiz21/squad-es
收藏Hugging Face2025-12-04 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/jordiruiz21/squad-es
下载链接
链接失效反馈官方服务:
资源简介:
Este dataset es una versión procesada de SquadES, generada únicamente mediante Python para uso en prácticas de Ingeniería de Datos y Procesamiento de Lenguaje Natural.
Descripción general
El dataset original fue descargado desde la fuente pública disponible y transformado siguiendo las instrucciones de la actividad:
División inicial en entrenamiento y validación.
Subdivisión del conjunto de entrenamiento en entrenamiento y prueba.
Cálculo del número de párrafos presentes en el campo context.
Filtrado del conjunto de entrenamiento para conservar únicamente los registros con más de diez párrafos.
Eliminación de la columna auxiliar generada para el conteo de párrafos.
Persistencia de todos los splits en formato Parquet.
Publicación final en Hugging Face.
Estructura del dataset
Cada muestra contiene:
id: identificador único
title: título o tema del pasaje
context: texto del que se extrae la respuesta
question: pregunta asociada
answers: estructura con campos text y answer_start
Los splits incluidos son:
train
validation
test
Los tamaños exactos dependen del filtrado basado en párrafos.
Ejemplo de carga
from datasets import load_dataset
dataset = load_dataset("jordiruiz21/squad-es")
print(dataset["train"][0])
Ejemplo de registro
id: "..."
title: "..."
context: "..."
question: "..."
answers: { "text": [...], "answer_start": [...] }
Notas
El dataset completo se distribuye en formato Parquet.
El filtrado por número de párrafos se aplicó únicamente sobre el conjunto de entrenamiento.
提供机构:
jordiruiz21



