five

lucasbiagettia/borges_plain_text_dataset

收藏
Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lucasbiagettia/borges_plain_text_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - es --- # Dataset: Borges en texto plano El objetivo de este repositorio es construir un dataset del gran autor argentino que pueda usarse para el entrenamiento de modelos de lenguaje. Inicialmente partí de libros en formato EPUB y únicamente en español # Carpetas Inicialmente planteo tres carpetas ## Epub Libros en este formato ## Epub_a_txt Libros convertidos con el sencillo script disponible en https://github.com/lucasbiagettia/epub2txt ## txt_limpios A mano he eliminado referencias editoriales, biograficas, y a otros recursos. El criterio es sumamente objetable. # Próximos pasos Establecer un criterio para "limpiar" los txt e intentar automatizarlo. Seria conveniente evaluar si tiene sentido etiquetar cada libro y dentro del mismo cada cuento, y si tiene sentido etiquetar sus textos por genero. # Cualquier colaboración será muy valorada.
提供机构:
lucasbiagettia
原始信息汇总

数据集:Borges en texto plano

数据集目标

构建一个可用于语言模型训练的阿根廷伟大作家Borges的数据集。

数据来源

初始数据来源于西班牙语的EPUB格式书籍。

文件夹结构

Epub

包含EPUB格式的书籍。

Epub_a_txt

使用脚本将EPUB格式书籍转换为文本格式。

txt_limpios

手动删除编辑、传记和其他资源的引用。

未来计划

  • 建立清理文本的标准并尝试自动化。
  • 评估是否需要为每个书籍和其中的每个故事进行标签分类,以及是否需要按类型对文本进行标签分类。

合作

欢迎任何形式的贡献和合作。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作