grosenthal/latin_english_parallel
收藏Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grosenthal/latin_english_parallel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含101k个拉丁语到英语的翻译对,分为训练集、测试集和验证集,比例为99/1/1。数据主要来源于Loeb古典图书馆(66%)和Vulgate翻译(34%)。对于来自Loeb古典图书馆的数据,源和目标序列之间的对齐是手动完成的,并且英语翻译经过了现代化处理以适应公共领域的使用。处理过程中使用了OpenAI的gpt3.5-turbo模型进行翻译,并手动校正了不符合标准的输出。每个样本都标注了索引和文件(以及作者/作品)信息。
该数据集包含101k个拉丁语到英语的翻译对,分为训练集、测试集和验证集,比例为99/1/1。数据主要来源于Loeb古典图书馆(66%)和Vulgate翻译(34%)。对于来自Loeb古典图书馆的数据,源和目标序列之间的对齐是手动完成的,并且英语翻译经过了现代化处理以适应公共领域的使用。处理过程中使用了OpenAI的gpt3.5-turbo模型进行翻译,并手动校正了不符合标准的输出。每个样本都标注了索引和文件(以及作者/作品)信息。
提供机构:
grosenthal
原始信息汇总
数据集概述
基本信息
- 数据集名称: Latin to English Translation Pairs
- 别名: latin_english_parallel
- 任务类别: 翻译
- 语言: 拉丁语, 英语
- 大小类别: 10K<n<100K
数据集结构
- 特征:
id: 整数类型la: 字符串类型(拉丁语)en: 字符串类型(英语)file: 字符串类型
数据分割
- 训练集:
- 示例数量: 99343
- 字节数: 39252644
- 测试集:
- 示例数量: 1014
- 字节数: 405056
- 验证集:
- 示例数量: 1014
- 字节数: 392886
下载与数据集大小
- 下载大小: 25567350字节
- 数据集大小: 40050586字节
许可证
- 许可证: MIT
数据来源与处理
- 来源: 约66%来自Loeb Classical Library,34%来自Vulgate翻译。
- 处理: 使用gpt3.5-turbo模型在OpenAI上进行翻译,随后手动校正不符合标准的输出。
样本信息
- 样本注释: 包含索引和文件信息(及作者/作品)。
- 错误修正: 欢迎通过提交PR来修正错误。



