evilfreelancer/opus-php-en-ru-cleaned
收藏Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/evilfreelancer/opus-php-en-ru-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含俄语和英语的平行语料对。原始数据集OPUS PHP v1 (en&ru)由于质量差和噪声高,仅使用了其中的英语语料,并通过LibreTranslate自动翻译,再使用Google Translate进行手动翻译和质量改进。整个数据集经过作者审查,删除了少于15个字符的行和未翻译的代码样本等重复行,最终从约2000行减少到约1600行。数据集的特征包括英语和俄语的字符串类型,分为训练集和评估集,分别包含1607和100个样本。数据集的总大小为391460字节,下载大小为206613字节。数据集的任务类别为翻译,语言为俄语和英语,标签包括编程、技术、PHP、平行语料库和BERT,大小类别为1K<n<10K。
提供机构:
evilfreelancer
原始信息汇总
OPUS PHP (ru-en) 平行语料库数据集
数据集信息
特征
- English: 字符串类型
- Russian: 字符串类型
分割
- train:
- 字节数: 372104
- 样本数: 1607
- eval:
- 字节数: 19356
- 样本数: 100
大小
- 下载大小: 206613 字节
- 数据集大小: 391460 字节
配置
- default:
- 数据文件:
- train: data/train-*
- eval: data/eval-*
- 数据文件:
许可
- MIT 许可证
任务类别
- 翻译
语言
- 俄语 (ru)
- 英语 (en)
标签
- 编程
- 技术
- PHP
- 平行语料库
- BERT
大小类别
- 1K<n<10K
数据集描述
该数据集包含俄语和英语的平行语料库。最初,原始的 OPUS PHP v1 (en&ru) 数据集旨在用于训练 enbeddrus 项目。然而,由于其质量差和噪声水平高,决定仅使用该数据集中的英语语料库。然后,使用 LibreTranslate 自动翻译英语文本,并使用 Google Translate 进行手动翻译和质量改进。
因此,整个数据集由该项目的作者进行了审查。随后,删除了所有少于15个字符的行,并手动删除了诸如 "Example 1. function_name()" 的行。此外,删除了所有重复的行,如未翻译的代码样本。结果,原始的 OPUS PHP v1 数据集从约2k行减少到约1.6k行。



