five

万卷·丝路2.0(5个语种:阿语、俄语、韩语、越南语、泰语)|多语言处理数据集|多模态数据数据集

收藏
魔搭社区2025-08-01 更新2025-06-14 收录
多语言处理
多模态数据
下载链接:
https://modelscope.cn/datasets/OpenDataLab/WanJuanSiLu2O
下载链接
链接失效反馈
资源简介:
# 万卷·丝路 2.0 多模态多语言语料库 ## 数据集介绍 全新升级的“万卷·丝路2.0”,带来以下三大核心提升: - **语种数量显著扩充**:在“万卷·丝路1.0” 开源的阿语、俄语、韩语、越南语、泰语5个语种基础上,“万卷·丝路2.0”新增塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,以上述 8 个关键语种,助力全球多语言应用。 - **数据模态全面升级**:与万卷·丝路1.0纯文本数据不同,万卷·丝路2.0为 8 个语种均提供了丰富的图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,极大地满足了多种研究任务的需求。 - **超精细数据,多场景适用**:经成熟数据生产管线及安全加固,结合机器与当地专家人工精细化地标注质检,“万卷·丝路2.0”达工业级数据质量标准,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,开“箱”即用,助开发者减负,专注价值创造。 ## 开源内容 图片-文本累计开源超过200W条; 音频-文本开源超过1600小时; 音频-文本开源超过2.5w小时; SFT数据开源18w条; 开源数据详情: |语种名称|图文模块数据量(张数)|音频模块时长(小时)|视频模块时长(小时)|SFT模块数据量| |---|---|---|---|---| |阿语|220,000|200|1738|23,000| |俄语|250,000|212|3491|23,000| |韩语|530,000|202|3412|23,000| |越南语|450,000|205|2901|23,000| |泰语|100,000|201|5684|23,000| |塞尔维亚语|80,000|206|2578|23,000| |匈牙利语|220,000|208|3470|23,000| |捷克语|270,000|202|2453|23,000| **⚠⚠⚠【说明】** - 本仓库主要为这5个语种资源(阿语、俄语、韩语、越南语、泰语),登录后可以直接下载使用(无需申请) - 其他3个语种(塞尔维亚语、匈牙利语、捷克语) 请访问这个页面([https://opendatalab.com/OpenDataLab/WanJuanSiLu2](https://opendatalab.com/OpenDataLab/WanJuanSiLu2)),点击申请,作者同意后即可下载使用。 ## 数据处理特点: #### 图片-文本数据: - 多领域覆盖均衡:来自八个语种国家的维基百科、维基语录、百科全书及主流媒体新闻的高质量图片-文本数据; - 双重标注创新:Alt-text基础描述 + 视觉模型生成扩展描述,提升信息丰富度; - 10个高关注领域均匀分布,避免数据倾斜;标签构成:户外场景、室内场景、城市场景、乡村场景、文字科技、自然风光、民俗传统、成年人、食物; #### 音频-文本数据: - 音频双ASR校验保证超高质量:本数据集采自主流视频媒体平台转录的音频-文本数据,通过Google和Microsoft双商用ASR引擎交叉验证,确保高精准文本标注,并结合环境噪声消除技术,提高音质; - 真实场景语音:包含环境噪声的自然对话数据,贴近实际应用,相比其他同类数据集,本数据集在多语种覆盖、对话真实性和标注质量方面具有明显优势; - 4大数据分类:社会人文、娱乐媒体、学识教育、生活文化; #### 视频-文本数据: - 丰富的语种类别,填补数据空白:8种语言(含匈牙利语/塞尔维亚语等)视频总量超16,000小时;与同类数据集相比,该数据集包括了很多低资源语种,填补了这些语言在视频数据集中的空白,是多模态研究和低资源语种处理的宝贵资源; - 多模态标注体系,构造细粒度标签与描述:同时提供视频画面标注、字幕标注以及视频画面与字幕整合标注三种形式,为多模态模型的研究与开发提供了更全面的信息支持;提供17类多维标签,满足多样化需求; - 标签构成 一级标签 二级标签 通用 科技与战略 文化 电影与动画 旅行 人物 人物 动物 访谈 场景 音乐 游戏 新闻 教程 体育 其他 其他 #### 特色指令微调SFT数据: - 文化对抗样本:包含本土居民设计的文化相关问答对,检测模型文化偏见 - 混合质检流程:规则+模型评分筛选翻译数据,降低低资源语种噪声 - 提供非英语文化语料(如本地生活/传统习俗),缓解英文数据主导的刻板印象 - 5大标签构成:文化、代码、本地生活、AI4S、数学 ## 许可 万卷·丝路2.0 整体采用CC BY 4.0许可协议。您可以自由共享、改编该数据集,唯需遵循以下条件: - 署名:您必须适当地标明作者、提供指向本协议的链接,以及指明是否(对原始数据集)做了修改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人同意您或您的使用。 - 没有附加限制:您不得使用法律条款或技术措施来限制他人执行许可证允许的任何操作。 完整协议内容,请访问[CC BY 4.0](https://creativecommons.org/licenses/by/4.0/)协议全文。 ## 特别注意事项 请注意,本数据集的某些子集可能受制于其他协议规定。在使用特定子集之前,请务必仔细阅读相关协议,确保合规使用。更为详细的协议信息,请在特定子集的相关文档或元数据中查看。 OpenDataLab作为非盈利机构,倡导和谐友好的开源交流环境,若在开源数据集内发现有侵犯您合法权益的内容,可发送邮件至([OpenDataLab@pjlab.org.cn](mailto:OpenDataLab@pjlab.org.cn)),邮件中请写明侵权相关事实的详细描述并向我们提供相关的权属证明资料。我们将于3个工作日内启动调查处理机制,并采取必要的措施进行处置(如下架相关数据)。但您应确保您投诉的真实性,否则采取措施后所产生的不利后果应由您独立承担。 ## 引文 使用 万卷·丝路2.0 ,请添加以下引文: ``` @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, } ```‌​‌‌​​​​‌​​​‌‌‌‌‌​​‌‌​‌​‌​​‌​​​‌‌​‌‌‌​‌‌‌​​‌‌‌‌​‌​​​‌​‌‌‌​​‌‌‌‌​‌​‌‌​​‌‌‌​​‌‌‌‌​‌​​‌‌‌​‌
提供机构:
maas
创建时间:
2025-04-01
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Dunhuang Grottoes Painting Dataset

该数据集专为敦煌石窟壁画修复而设计,提供了大量的训练和测试样本,足以支持深度学习方法的应用。

arXiv 收录

ClinicalTrials.gov

Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.

OPEN DATA NETWORK 收录

张家口市下花园区-房屋建筑业-应建防空地下室的民用建筑项目报建审批数据

该数据资源为张家口市下花园区数据和政务服务局在履行应建防空地下室的民用建筑项目报建审批过程中产生,包含建设单位、工程名称等具体信息,可用于防空地下室信息查询,有助于行业主管部门监督管理。

国家公共数据资源登记平台 收录