five

evilfreelancer/opus-php-en-ru-cleaned

收藏
Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/evilfreelancer/opus-php-en-ru-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含俄语和英语的平行语料对。原始数据集OPUS PHP v1 (en&ru)由于质量差和噪声高,仅使用了其中的英语语料,并通过LibreTranslate自动翻译,再使用Google Translate进行手动翻译和质量改进。整个数据集经过作者审查,删除了少于15个字符的行和未翻译的代码样本等重复行,最终从约2000行减少到约1600行。数据集的特征包括英语和俄语的字符串类型,分为训练集和评估集,分别包含1607和100个样本。数据集的总大小为391460字节,下载大小为206613字节。数据集的任务类别为翻译,语言为俄语和英语,标签包括编程、技术、PHP、平行语料库和BERT,大小类别为1K<n<10K。
提供机构:
evilfreelancer
原始信息汇总

OPUS PHP (ru-en) 平行语料库数据集

数据集信息

特征

  • English: 字符串类型
  • Russian: 字符串类型

分割

  • train:
    • 字节数: 372104
    • 样本数: 1607
  • eval:
    • 字节数: 19356
    • 样本数: 100

大小

  • 下载大小: 206613 字节
  • 数据集大小: 391460 字节

配置

  • default:
    • 数据文件:
      • train: data/train-*
      • eval: data/eval-*

许可

  • MIT 许可证

任务类别

  • 翻译

语言

  • 俄语 (ru)
  • 英语 (en)

标签

  • 编程
  • 技术
  • PHP
  • 平行语料库
  • BERT

大小类别

  • 1K<n<10K

数据集描述

该数据集包含俄语和英语的平行语料库。最初,原始的 OPUS PHP v1 (en&ru) 数据集旨在用于训练 enbeddrus 项目。然而,由于其质量差和噪声水平高,决定仅使用该数据集中的英语语料库。然后,使用 LibreTranslate 自动翻译英语文本,并使用 Google Translate 进行手动翻译和质量改进。

因此,整个数据集由该项目的作者进行了审查。随后,删除了所有少于15个字符的行,并手动删除了诸如 "Example 1. function_name()" 的行。此外,删除了所有重复的行,如未翻译的代码样本。结果,原始的 OPUS PHP v1 数据集从约2k行减少到约1.6k行。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作