WanJuanSiLu-Multimodal-5Languages
收藏OpenCSG2025-04-24 更新2026-04-04 收录
下载链接:
https://opencsg.com/datasets/AIWizards/WanJuanSiLu-Multimodal-5Languages?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
“万卷·丝路多模态多语言语料库”提供了一个大规模、多模态、多语言的数据集,旨在支持全球多语言应用和多模态研究。该语料库包含图片-文本、音频-文本、视频-文本以及指令微调SFT四种模态数据,涵盖阿拉伯语、俄语、韩语、越南语、泰语、塞尔维亚语、匈牙利语和捷克语八种语言。数据总量超过1150万条,音视频时长累计超过26000小时。数据内容广泛,涉及文化旅游、商业贸易、科技教育、社会人文、娱乐媒体等多个领域,并特别关注文化对抗样本以检测模型中的文化偏见。所有数据均经过机器与本地专家的人工精细标注和质量检验,达到工业级标准,标注信息包括多维分类标签、详细文本描述以及多模态集成标注。数据采集自维基百科、主流媒体新闻、流媒体视频平台等多样化来源,并通过双重ASR验证和环境降噪技术确保音频质量。该数据集适用于对话生成、目标检测、低资源语言处理等多种任务,并采用CC BY 4.0授权许可,允许自由分享和改编,但需注明出处。
提供机构:
AIWizards
创建时间:
2025-04-23



