rl337/cicero-bonorum-et-malorum
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rl337/cicero-bonorum-et-malorum
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Cicero的De finibus bonorum et malorum文本,旨在用于在Neural Network Evolution项目中比较不同的神经网络架构。文本来源于The Latin Library,并经过预处理以确保格式和编码的一致性。数据集格式为纯文本,编码为UTF-8,包含大约94,616个单词和638,272个字符,分布在5本书中。数据集遵循Creative Commons Attribution 4.0 International License。
该数据集包含了Cicero的De finibus bonorum et malorum文本,旨在用于在Neural Network Evolution项目中比较不同的神经网络架构。文本来源于The Latin Library,并经过预处理以确保格式和编码的一致性。数据集格式为纯文本,编码为UTF-8,包含大约94,616个单词和638,272个字符,分布在5本书中。数据集遵循Creative Commons Attribution 4.0 International License。
提供机构:
rl337
原始信息汇总
Ciceros De finibus bonorum et malorum 数据集概述
概览
该数据集包含 Cicero 的 "De finibus bonorum et malorum" 文本内容。旨在用于 "Neural Network Evolution" 项目中比较不同的神经网络架构。
来源
文本来源于 The Latin Library。
预处理
数据集通过 Python 脚本进行获取和处理,确保格式和编码的一致性。
预处理决策:
- 移除所有 HTML 头部文本
- 移除所有锚点的 HTML 标签及其内容
- 移除括号内的引用,例如 [1]
- 移除任何隐式文本添加,例如 [et]
- 将换行符合并为两个段落之间的分隔符
- 标准化段落缩进为一个制表符
详细预处理步骤见 fetch_text.py 文件。
数据集结构
- 格式:纯文本
- 编码:UTF-8
- 大小:约 94,616 个单词和 638,272 个字符,分布在 5 本书中
许可
该数据集基于 Creative Commons Attribution 4.0 International License 发布。



