geopti/opus-en-el-eval-mixture
收藏Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/geopti/opus-en-el-eval-mixture
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
- el
license: other
pretty_name: OPUS en-el Eval Mixture
tags:
- translation
- english
- greek
- opus
- dgt
- europarl
task_categories:
- translation
size_categories:
- 1M<n<10M
---
# OPUS en-el Eval Mixture
This dataset is a parquet export of two cleaned English-Greek parallel corpora:
- DGT v2019 `targeted_refined`
- Europarl v8 `targeted_refined_dedup`
It is intended as a reusable held-out evaluation source for translation model development.
## Format
One row per aligned pair with fields:
- `corpus`
- `pair_id`
- `en`
- `el`
## Current export
- total rows: 2941831
- DGT rows: 1722159
- Europarl rows: 1219672
- parquet shards: 30
语言:
- 英语(en)
- 希腊语(el)
许可协议:其他
数据集展示名称:OPUS 英-希评估混合集(OPUS en-el Eval Mixture)
标签:
- 机器翻译
- 英语
- 希腊语
- OPUS
- DGT
- Europarl
任务类别:
- 机器翻译
数据集规模区间:
- 100万 < 样本数 < 1000万
# OPUS 英-希评估混合集
本数据集为两份经过清洗的英-希平行语料库的Parquet格式导出文件:
- DGT v2019 `targeted_refined`(定向精修子集)
- Europarl v8 `targeted_refined_dedup`(定向精修去重子集)
本数据集旨在作为可复用的预留评估数据源,用于翻译模型的开发与验证。
## 数据格式
每条数据对应一组对齐语料对,包含以下字段:
- `corpus`:语料库来源标识
- `pair_id`:语料对唯一标识符
- `en`:英语文本
- `el`:希腊语文本
## 当前导出信息
- 总样本数:2941831
- DGT语料库样本数:1722159
- Europarl语料库样本数:1219672
- Parquet分片数量:30
提供机构:
geopti



