five

FrancophonIA/SciPar

收藏
Hugging Face2025-03-30 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/SciPar
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个多语言的翻译数据集,包含了31个双语的TMX文件,以及一些其他语言组合的小集合。数据集通过处理学术存储库和档案中可用的学士学位、硕士学位和博士学位论文摘要生成,总共有9172462个句子。语言对包括英语与保加利亚语、捷克语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、克罗地亚语、匈牙利语、冰岛语、意大利语、立陶宛语、拉脱维亚语、马其顿语、挪威语(博克马尔)、挪威语(尼诺斯克)、波兰语、葡萄牙语、俄语、斯洛伐克语、斯洛文尼亚语、阿尔巴尼亚语、瑞典语,以及德语与西班牙语、法语、俄语,英语与西班牙语、法语、俄语的组合。

This is a multilingual translation dataset containing 31 bilingual TMX files, along with a small collection of other language combinations. The dataset was generated by processing abstracts of Bachelors, Masters, and PhD theses available in academic repositories and archives, totaling 9,172,462 sentences. The language pairs include English-Bulgarian, English-Czech, English-German, English-Greek, English-Spanish, English-Estonian, English-Finnish, English-French, English-Croatian, English-Hungarian, English-Icelandic, English-Italian, English-Lithuanian, English-Latvian, English-Macedonian, English-Norwegian (Bokmål), English-Norwegian (Nynorsk), English-Polish, English-Portuguese, English-Russian, English-Slovak, English-Slovenian, English-Albanian, English-Swedish, as well as German-Spanish, German-French, German-Russian, English-Spanish, English-French, and English-Russian.
提供机构:
FrancophonIA
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作