lucasbiagettia/borges_plain_text_dataset
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lucasbiagettia/borges_plain_text_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- es
---
# Dataset: Borges en texto plano
El objetivo de este repositorio es construir un dataset del gran autor argentino que pueda usarse para el entrenamiento de modelos de lenguaje.
Inicialmente partí de libros en formato EPUB y únicamente en español
# Carpetas
Inicialmente planteo tres carpetas
## Epub
Libros en este formato
## Epub_a_txt
Libros convertidos con el sencillo script disponible en
https://github.com/lucasbiagettia/epub2txt
## txt_limpios
A mano he eliminado referencias editoriales, biograficas, y a otros recursos.
El criterio es sumamente objetable.
# Próximos pasos
Establecer un criterio para "limpiar" los txt e intentar automatizarlo. Seria conveniente evaluar si tiene sentido etiquetar cada libro y dentro del mismo cada cuento, y si tiene sentido etiquetar sus textos por genero.
# Cualquier colaboración será muy valorada.
提供机构:
lucasbiagettia
原始信息汇总
数据集:Borges en texto plano
数据集目标
构建一个可用于语言模型训练的阿根廷伟大作家Borges的数据集。
数据来源
初始数据来源于西班牙语的EPUB格式书籍。
文件夹结构
Epub
包含EPUB格式的书籍。
Epub_a_txt
使用脚本将EPUB格式书籍转换为文本格式。
txt_limpios
手动删除编辑、传记和其他资源的引用。
未来计划
- 建立清理文本的标准并尝试自动化。
- 评估是否需要为每个书籍和其中的每个故事进行标签分类,以及是否需要按类型对文本进行标签分类。
合作
欢迎任何形式的贡献和合作。



