five

万卷丝路-多模态 3个语种(塞尔维亚语、匈牙利语、捷克语)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WanJuanSiLu2
下载链接
链接失效反馈
官方服务:
资源简介:
全新升级的“万卷·丝路2.0”,带来以下三大核心提升: 语种数量显著扩充、数据模态全面升级,为 8 个语种均提供了丰富的图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,极大地满足了多种研究任务的需求。 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合机器与当地专家人工精细化地标注质检,“万卷·丝路2.0”达工业级数据质量标准,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,开“箱”即用,助开发者减负,专注价值创造。
提供机构:
OpenDataLab
创建时间:
2025-03-20
二维码
社区交流群
二维码
科研交流群
商业服务