大语言模型多语种文本数据集
收藏安徽数据交易所2024-09-18 更新2025-01-03 收录
下载链接:
https://www.ahdexc.com/factorMarket
下载链接
链接失效反馈官方服务:
资源简介:
数据为一百多种语言的双语句对。涵盖ICT、旅游、医疗、新闻、娱乐、出行、化工、建筑等各行各业的双语数据;
主要为通过双语语料提升机器翻译引擎的用户使用;
还可以根据您的需求定制数据。
提供机构:
合肥易联语数科技有限公司
创建时间:
2024-09-18
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集专注于大语言模型的多语种文本数据,提供高质量、多语言的音频标注服务,支持语音识别和机器翻译等AI模型的训练。通过精准的音频内容与字幕对齐,以及严格的质检流程,确保数据标注准确率超过98%,有效降低人工成本并提升模型训练效率。数据集覆盖多种语言场景,为智能客服、翻译等领域提供可靠的数据基础。
以上内容由遇见数据集搜集并总结生成



