five

rl337/cicero-bonorum-et-malorum

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rl337/cicero-bonorum-et-malorum
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了Cicero的De finibus bonorum et malorum文本,旨在用于在Neural Network Evolution项目中比较不同的神经网络架构。文本来源于The Latin Library,并经过预处理以确保格式和编码的一致性。数据集格式为纯文本,编码为UTF-8,包含大约94,616个单词和638,272个字符,分布在5本书中。数据集遵循Creative Commons Attribution 4.0 International License。

该数据集包含了Cicero的De finibus bonorum et malorum文本,旨在用于在Neural Network Evolution项目中比较不同的神经网络架构。文本来源于The Latin Library,并经过预处理以确保格式和编码的一致性。数据集格式为纯文本,编码为UTF-8,包含大约94,616个单词和638,272个字符,分布在5本书中。数据集遵循Creative Commons Attribution 4.0 International License。
提供机构:
rl337
原始信息汇总

Ciceros De finibus bonorum et malorum 数据集概述

概览

该数据集包含 Cicero 的 "De finibus bonorum et malorum" 文本内容。旨在用于 "Neural Network Evolution" 项目中比较不同的神经网络架构。

来源

文本来源于 The Latin Library。

预处理

数据集通过 Python 脚本进行获取和处理,确保格式和编码的一致性。

预处理决策:

  • 移除所有 HTML 头部文本
  • 移除所有锚点的 HTML 标签及其内容
  • 移除括号内的引用,例如 [1]
  • 移除任何隐式文本添加,例如 [et]
  • 将换行符合并为两个段落之间的分隔符
  • 标准化段落缩进为一个制表符

详细预处理步骤见 fetch_text.py 文件。

数据集结构

  • 格式:纯文本
  • 编码:UTF-8
  • 大小:约 94,616 个单词和 638,272 个字符,分布在 5 本书中

许可

该数据集基于 Creative Commons Attribution 4.0 International License 发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作