多语种对中文文本数据集
收藏合肥数据要素流通平台2024-12-05 更新2024-12-24 收录
下载链接:
https://www.bigdatadex.com.cn/dataCirculation/listMoreb/details?shopId=1864558854366425089&commodityType=2
下载链接
链接失效反馈官方服务:
资源简介:
数据为五十多种语言对中文的双语句对。涵盖多语种(阿尔巴尼亚语、阿拉伯语、阿塞拜疆语、爱沙尼亚语、巴斯克语、白俄罗斯语、保加利亚语、冰岛语、波兰语、波斯尼亚波斯语、藏语、丹麦语、德语、俄语、法语、菲律宾语、芬兰语、高棉语、古吉拉特语、哈萨克语-西里尔、哈萨克语、韩语、荷兰语、吉尔吉斯语、加利西亚语、加泰罗尼亚语、克罗地亚语、拉丁语、拉脱维亚语、老挝语、立陶宛语、罗马尼亚语、马拉地语、马来语、马其顿语、蒙古语、蒙古语-西里尔、孟加拉语、缅甸语、尼泊尔语、挪威语、葡萄牙语、普什图语、日语、瑞典语、塞尔维亚语-拉丁、僧伽罗语、斯洛伐克语、斯瓦希里语、塔吉克语、泰卢固语 、泰米尔语、泰语、土耳其语、土库曼语、维吾尔语、乌尔都语、乌克兰语、乌兹别克语、西班牙语、匈牙利语、意大利语 、印地语、印尼语、越南语、粤语)对中文双语数据; 通过双语语料提升机器翻译引擎的用户使用; 可以根据您的需求定制数据。
This dataset consists of bilingual sentence pairs between Chinese and over fifty languages, including the following language pairs: Albanian, Arabic, Azerbaijani, Estonian, Basque, Belarusian, Bulgarian, Icelandic, Polish, Bosnian Persian, Tibetan, Danish, German, Russian, French, Filipino, Finnish, Khmer, Gujarati, Kazakh (Cyrillic script), Kazakh, Korean, Dutch, Kyrgyz, Galician, Catalan, Croatian, Latin, Latvian, Lao, Lithuanian, Romanian, Marathi, Malay, Macedonian, Mongolian, Mongolian (Cyrillic script), Bengali, Burmese, Nepali, Norwegian, Portuguese, Pashto, Japanese, Swedish, Serbian (Latin script), Sinhala, Slovak, Swahili, Tajik, Telugu, Tamil, Thai, Turkish, Turkmen, Uyghur, Urdu, Ukrainian, Uzbek, Spanish, Hungarian, Italian, Hindi, Indonesian, Vietnamese, and Cantonese. This bilingual parallel corpus is designed to improve the user experience and performance of machine translation engines, and customized data services are available based on specific requirements.
提供机构:
合肥易联语数科技有限公司
创建时间:
2024-12-05
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多语种对中文的双语句对集合,涵盖五十多种语言,旨在提升机器翻译引擎的性能,并支持定制化需求。数据类型为数据集,适用于软件信息服务、科学研究和人工智能领域。
以上内容由遇见数据集搜集并总结生成



