ecastera/filosofia-es
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ecastera/filosofia-es
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 7017810
num_examples: 7131
- name: test
num_bytes: 1751680
num_examples: 1779
download_size: 4836888
dataset_size: 8769490
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
license: cc
task_categories:
- text-generation
- text-classification
- summarization
- text2text-generation
language:
- es
tags:
- spanish
- philosophy
- training
- classics
---
# Clasicos de Filosofia en Español
Extract of classic phylosophy texts in Spanish for training.
Trimed to 1280 characteres max per row to fit in my GPUs batches.
This dataset adds vocabulary richness and variety and could improve reasoning performance of LLMs.
* Apologia de Socrates
* Aristoteles - Etica A Nicomaco
* Aristoteles - Fisica
* Aristoteles - Politica
* Cartas filosoficas - Seneca
* Carta sobre la tolerancia y otros escritos - John Locke
* Criton - Platon
* Discurso del método - Descartes
* Immanuel Kant - Critica de la razon pura
* Immanuel Kant - Critica del juicio
* Los problemas de la filosofia - Bertrand Russell
* Sobre la felicidad - Seneca
* Spinoza - Filosofia practica
* Tratado de la naturaleza humana - David Hume
## Usage:
```
from datasets import load_dataset
dataset = load_dataset("ecastera/filosofia-es")
print(dataset)
```
Single column 'text' trimmed to 1280 chars max length.
## Dataset splits:
```
DatasetDict({
train: Dataset({
features: ['text'],
num_rows: 7131
})
test: Dataset({
features: ['text'],
num_rows: 1779
})
})
```
提供机构:
ecastera
原始信息汇总
数据集概述
数据集信息
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 训练集:
- 字节数: 7017810
- 样本数: 7131
- 测试集:
- 字节数: 1751680
- 样本数: 1779
- 训练集:
- 下载大小: 4836888
- 数据集大小: 8769490
- 配置:
- 默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*
- 默认配置:
- 许可证: cc
- 任务类别:
- 文本生成
- 文本分类
- 摘要生成
- 文本到文本生成
- 语言: 西班牙语
- 标签:
- 西班牙语
- 哲学
- 训练
- 经典
数据集描述
- 包含西班牙语经典哲学文本的提取,每行最多1280个字符,适用于GPU批处理。
- 数据集增加了词汇的丰富性和多样性,可能提高大型语言模型的推理性能。
包含的文本
- Apologia de Socrates
- Aristoteles - Etica A Nicomaco
- Aristoteles - Fisica
- Aristoteles - Politica
- Cartas filosoficas - Seneca
- Carta sobre la tolerancia y otros escritos - John Locke
- Criton - Platon
- Discurso del método - Descartes
- Immanuel Kant - Critica de la razon pura
- Immanuel Kant - Critica del juicio
- Los problemas de la filosofia - Bertrand Russell
- Sobre la felicidad - Seneca
- Spinoza - Filosofia practica
- Tratado de la naturaleza humana - David Hume
使用方法
python from datasets import load_dataset dataset = load_dataset("ecastera/filosofia-es") print(dataset)
- 单列 text,每行最多1280个字符。
数据集分割
python DatasetDict({ train: Dataset({ features: [text], num_rows: 7131 }) test: Dataset({ features: [text], num_rows: 1779 }) })



