five

多语种对中文文本数据集

收藏
安徽数据交易所2024-12-05 更新2025-01-03 收录
下载链接:
https://www.ahdexc.com/factorMarket
下载链接
链接失效反馈
官方服务:
资源简介:
数据为五十多种语言对中文的双语句对。涵盖多语种(阿尔巴尼亚语、阿拉伯语、阿塞拜疆语、爱沙尼亚语、巴斯克语、白俄罗斯语、保加利亚语、冰岛语、波兰语、波斯尼亚波斯语、藏语、丹麦语、德语、俄语、法语、菲律宾语、芬兰语、高棉语、古吉拉特语、哈萨克语-西里尔、哈萨克语、韩语、荷兰语、吉尔吉斯语、加利西亚语、加泰罗尼亚语、克罗地亚语、拉丁语、拉脱维亚语、老挝语、立陶宛语、罗马尼亚语、马拉地语、马来语、马其顿语、蒙古语、蒙古语-西里尔、孟加拉语、缅甸语、尼泊尔语、挪威语、葡萄牙语、普什图语、日语、瑞典语、塞尔维亚语-拉丁、僧伽罗语、斯洛伐克语、斯瓦希里语、塔吉克语、泰卢固语 、泰米尔语、泰语、土耳其语、土库曼语、维吾尔语、乌尔都语、乌克兰语、乌兹别克语、西班牙语、匈牙利语、意大利语 、印地语、印尼语、越南语、粤语)对中文双语数据; 通过双语语料提升机器翻译引擎的用户使用; 可以根据您的需求定制数据。
提供机构:
合肥易联语数科技有限公司
创建时间:
2024-12-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专注于多语种与中文文本对的数据资源,旨在支持跨语言处理任务,如机器翻译或文本分析。它可能包含多种语言与中文的配对文本,经过标准化处理以确保数据质量和一致性,适用于自然语言处理领域的模型训练和应用开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作