five

jordiruiz21/squad-es

收藏
Hugging Face2025-12-04 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/jordiruiz21/squad-es
下载链接
链接失效反馈
官方服务:
资源简介:
Este dataset es una versión procesada de SquadES, generada únicamente mediante Python para uso en prácticas de Ingeniería de Datos y Procesamiento de Lenguaje Natural. Descripción general El dataset original fue descargado desde la fuente pública disponible y transformado siguiendo las instrucciones de la actividad: División inicial en entrenamiento y validación. Subdivisión del conjunto de entrenamiento en entrenamiento y prueba. Cálculo del número de párrafos presentes en el campo context. Filtrado del conjunto de entrenamiento para conservar únicamente los registros con más de diez párrafos. Eliminación de la columna auxiliar generada para el conteo de párrafos. Persistencia de todos los splits en formato Parquet. Publicación final en Hugging Face. Estructura del dataset Cada muestra contiene: id: identificador único title: título o tema del pasaje context: texto del que se extrae la respuesta question: pregunta asociada answers: estructura con campos text y answer_start Los splits incluidos son: train validation test Los tamaños exactos dependen del filtrado basado en párrafos. Ejemplo de carga from datasets import load_dataset dataset = load_dataset("jordiruiz21/squad-es") print(dataset["train"][0]) Ejemplo de registro id: "..." title: "..." context: "..." question: "..." answers: { "text": [...], "answer_start": [...] } Notas El dataset completo se distribuye en formato Parquet. El filtrado por número de párrafos se aplicó únicamente sobre el conjunto de entrenamiento.
提供机构:
jordiruiz21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作