five

geopti/opus-en-el-eval-mixture

收藏
Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/geopti/opus-en-el-eval-mixture
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en - el license: other pretty_name: OPUS en-el Eval Mixture tags: - translation - english - greek - opus - dgt - europarl task_categories: - translation size_categories: - 1M<n<10M --- # OPUS en-el Eval Mixture This dataset is a parquet export of two cleaned English-Greek parallel corpora: - DGT v2019 `targeted_refined` - Europarl v8 `targeted_refined_dedup` It is intended as a reusable held-out evaluation source for translation model development. ## Format One row per aligned pair with fields: - `corpus` - `pair_id` - `en` - `el` ## Current export - total rows: 2941831 - DGT rows: 1722159 - Europarl rows: 1219672 - parquet shards: 30

语言: - 英语(en) - 希腊语(el) 许可协议:其他 数据集展示名称:OPUS 英-希评估混合集(OPUS en-el Eval Mixture) 标签: - 机器翻译 - 英语 - 希腊语 - OPUS - DGT - Europarl 任务类别: - 机器翻译 数据集规模区间: - 100万 < 样本数 < 1000万 # OPUS 英-希评估混合集 本数据集为两份经过清洗的英-希平行语料库的Parquet格式导出文件: - DGT v2019 `targeted_refined`(定向精修子集) - Europarl v8 `targeted_refined_dedup`(定向精修去重子集) 本数据集旨在作为可复用的预留评估数据源,用于翻译模型的开发与验证。 ## 数据格式 每条数据对应一组对齐语料对,包含以下字段: - `corpus`:语料库来源标识 - `pair_id`:语料对唯一标识符 - `en`:英语文本 - `el`:希腊语文本 ## 当前导出信息 - 总样本数:2941831 - DGT语料库样本数:1722159 - Europarl语料库样本数:1219672 - Parquet分片数量:30
提供机构:
geopti
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作