five

ecastera/filosofia-es

收藏
Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ecastera/filosofia-es
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 7017810 num_examples: 7131 - name: test num_bytes: 1751680 num_examples: 1779 download_size: 4836888 dataset_size: 8769490 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* license: cc task_categories: - text-generation - text-classification - summarization - text2text-generation language: - es tags: - spanish - philosophy - training - classics --- # Clasicos de Filosofia en Español Extract of classic phylosophy texts in Spanish for training. Trimed to 1280 characteres max per row to fit in my GPUs batches. This dataset adds vocabulary richness and variety and could improve reasoning performance of LLMs. * Apologia de Socrates * Aristoteles - Etica A Nicomaco * Aristoteles - Fisica * Aristoteles - Politica * Cartas filosoficas - Seneca * Carta sobre la tolerancia y otros escritos - John Locke * Criton - Platon * Discurso del método - Descartes * Immanuel Kant - Critica de la razon pura * Immanuel Kant - Critica del juicio * Los problemas de la filosofia - Bertrand Russell * Sobre la felicidad - Seneca * Spinoza - Filosofia practica * Tratado de la naturaleza humana - David Hume ## Usage: ``` from datasets import load_dataset dataset = load_dataset("ecastera/filosofia-es") print(dataset) ``` Single column 'text' trimmed to 1280 chars max length. ## Dataset splits: ``` DatasetDict({ train: Dataset({ features: ['text'], num_rows: 7131 }) test: Dataset({ features: ['text'], num_rows: 1779 }) }) ```
提供机构:
ecastera
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • 名称: text
    • 数据类型: string
  • 分割:
    • 训练集:
      • 字节数: 7017810
      • 样本数: 7131
    • 测试集:
      • 字节数: 1751680
      • 样本数: 1779
  • 下载大小: 4836888
  • 数据集大小: 8769490
  • 配置:
    • 默认配置:
      • 训练集路径: data/train-*
      • 测试集路径: data/test-*
  • 许可证: cc
  • 任务类别:
    • 文本生成
    • 文本分类
    • 摘要生成
    • 文本到文本生成
  • 语言: 西班牙语
  • 标签:
    • 西班牙语
    • 哲学
    • 训练
    • 经典

数据集描述

  • 包含西班牙语经典哲学文本的提取,每行最多1280个字符,适用于GPU批处理。
  • 数据集增加了词汇的丰富性和多样性,可能提高大型语言模型的推理性能。

包含的文本

  • Apologia de Socrates
  • Aristoteles - Etica A Nicomaco
  • Aristoteles - Fisica
  • Aristoteles - Politica
  • Cartas filosoficas - Seneca
  • Carta sobre la tolerancia y otros escritos - John Locke
  • Criton - Platon
  • Discurso del método - Descartes
  • Immanuel Kant - Critica de la razon pura
  • Immanuel Kant - Critica del juicio
  • Los problemas de la filosofia - Bertrand Russell
  • Sobre la felicidad - Seneca
  • Spinoza - Filosofia practica
  • Tratado de la naturaleza humana - David Hume

使用方法

python from datasets import load_dataset dataset = load_dataset("ecastera/filosofia-es") print(dataset)

  • 单列 text,每行最多1280个字符。

数据集分割

python DatasetDict({ train: Dataset({ features: [text], num_rows: 7131 }) test: Dataset({ features: [text], num_rows: 1779 }) })

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作