five

laelhalawani/opus_and_europarl_en_ro

收藏
Hugging Face2024-10-28 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/laelhalawani/opus_and_europarl_en_ro
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由赫尔辛基大学发布的两个En-Ro数据集(Opus-100和Europarl)组合和转换而成的。数据集包含1,404,356个En-Ro文本对样本,每个样本是一个字典,包含两个键`en`和`ro`,分别对应英语和罗马尼亚语的文本。初步分析显示许多样本存在格式问题和语义翻译问题。

This dataset is a combination and conversion of two En-Ro datasets, specifically Opus-100 and Europarl, published by the University of Helsinki. The dataset contains 1,404,356 En-Ro text-pair samples, where each sample is a dictionary with two keys en and ro corresponding to English and Romanian texts respectively. Note that some samples have formatting issues and might face semantic translation issues.
提供机构:
laelhalawani
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作