five

数据堂—108万条英俄平行语料数据

收藏
魔搭社区2025-11-14 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/1080000Groups-English-RussianParallelCorpusData
下载链接
链接失效反馈
官方服务:
资源简介:
英俄平行语料数据总计108万组,排除了政治、黄色、个人信息等敏感词汇;可作为文本类数据分析的基础语料库,用于机器翻译等领域

This dataset contains 1.08 million English-Russian parallel corpus pairs, with sensitive content including political materials, pornographic content and personal information excluded. It can serve as a foundational corpus for text data analysis and be applied in fields such as machine translation.
提供机构:
maas
创建时间:
2024-05-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含108万对英语-俄语平行语料,专为机器翻译测试任务设计,排除了政治、色情等敏感信息。数据以TXT格式存储,由数据堂提供版权并支持商业用途。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务