five

grosenthal/latin_english_parallel

收藏
Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grosenthal/latin_english_parallel
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含101k个拉丁语到英语的翻译对,分为训练集、测试集和验证集,比例为99/1/1。数据主要来源于Loeb古典图书馆(66%)和Vulgate翻译(34%)。对于来自Loeb古典图书馆的数据,源和目标序列之间的对齐是手动完成的,并且英语翻译经过了现代化处理以适应公共领域的使用。处理过程中使用了OpenAI的gpt3.5-turbo模型进行翻译,并手动校正了不符合标准的输出。每个样本都标注了索引和文件(以及作者/作品)信息。

该数据集包含101k个拉丁语到英语的翻译对,分为训练集、测试集和验证集,比例为99/1/1。数据主要来源于Loeb古典图书馆(66%)和Vulgate翻译(34%)。对于来自Loeb古典图书馆的数据,源和目标序列之间的对齐是手动完成的,并且英语翻译经过了现代化处理以适应公共领域的使用。处理过程中使用了OpenAI的gpt3.5-turbo模型进行翻译,并手动校正了不符合标准的输出。每个样本都标注了索引和文件(以及作者/作品)信息。
提供机构:
grosenthal
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Latin to English Translation Pairs
  • 别名: latin_english_parallel
  • 任务类别: 翻译
  • 语言: 拉丁语, 英语
  • 大小类别: 10K<n<100K

数据集结构

  • 特征:
    • id: 整数类型
    • la: 字符串类型(拉丁语)
    • en: 字符串类型(英语)
    • file: 字符串类型

数据分割

  • 训练集:
    • 示例数量: 99343
    • 字节数: 39252644
  • 测试集:
    • 示例数量: 1014
    • 字节数: 405056
  • 验证集:
    • 示例数量: 1014
    • 字节数: 392886

下载与数据集大小

  • 下载大小: 25567350字节
  • 数据集大小: 40050586字节

许可证

  • 许可证: MIT

数据来源与处理

  • 来源: 约66%来自Loeb Classical Library,34%来自Vulgate翻译。
  • 处理: 使用gpt3.5-turbo模型在OpenAI上进行翻译,随后手动校正不符合标准的输出。

样本信息

  • 样本注释: 包含索引和文件信息(及作者/作品)。
  • 错误修正: 欢迎通过提交PR来修正错误。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作