多语种对中文文本数据集
收藏安徽数据交易所2024-12-05 更新2025-01-03 收录
下载链接:
https://www.ahdexc.com/factorMarket
下载链接
链接失效反馈官方服务:
资源简介:
数据为五十多种语言对中文的双语句对。涵盖多语种(阿尔巴尼亚语、阿拉伯语、阿塞拜疆语、爱沙尼亚语、巴斯克语、白俄罗斯语、保加利亚语、冰岛语、波兰语、波斯尼亚波斯语、藏语、丹麦语、德语、俄语、法语、菲律宾语、芬兰语、高棉语、古吉拉特语、哈萨克语-西里尔、哈萨克语、韩语、荷兰语、吉尔吉斯语、加利西亚语、加泰罗尼亚语、克罗地亚语、拉丁语、拉脱维亚语、老挝语、立陶宛语、罗马尼亚语、马拉地语、马来语、马其顿语、蒙古语、蒙古语-西里尔、孟加拉语、缅甸语、尼泊尔语、挪威语、葡萄牙语、普什图语、日语、瑞典语、塞尔维亚语-拉丁、僧伽罗语、斯洛伐克语、斯瓦希里语、塔吉克语、泰卢固语 、泰米尔语、泰语、土耳其语、土库曼语、维吾尔语、乌尔都语、乌克兰语、乌兹别克语、西班牙语、匈牙利语、意大利语 、印地语、印尼语、越南语、粤语)对中文双语数据; 通过双语语料提升机器翻译引擎的用户使用; 可以根据您的需求定制数据。
This dataset consists of bilingual sentence pairs between Chinese and over 50 languages. The covered languages include Albanian, Arabic, Azerbaijani, Estonian, Basque, Belarusian, Bulgarian, Icelandic, Polish, Bosnian Persian, Tibetan, Danish, German, Russian, French, Filipino, Finnish, Khmer, Gujarati, Kazakh (Cyrillic script), Kazakh, Korean, Dutch, Kyrgyz, Galician, Catalan, Croatian, Latin, Latvian, Lao, Lithuanian, Romanian, Marathi, Malay, Macedonian, Mongolian, Mongolian (Cyrillic script), Bengali, Burmese, Nepali, Norwegian, Portuguese, Pashto, Japanese, Swedish, Serbian (Latin script), Sinhala, Slovak, Swahili, Tajik, Telugu, Tamil, Thai, Turkish, Turkmen, Uyghur, Urdu, Ukrainian, Uzbek, Spanish, Hungarian, Italian, Hindi, Indonesian, Vietnamese, and Cantonese. This dataset is designed to enhance the user experience of machine translation engines via bilingual parallel corpora, and can be customized according to user-specific requirements.
提供机构:
合肥易联语数科技有限公司
创建时间:
2024-12-05
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专注于多语种与中文文本对的数据资源,旨在支持跨语言处理任务,如机器翻译或文本分析。它可能包含多种语言与中文的配对文本,经过标准化处理以确保数据质量和一致性,适用于自然语言处理领域的模型训练和应用开发。
以上内容由遇见数据集搜集并总结生成



