资源简介:
# 万卷·丝路 2.0 多模态多语言语料库
## 数据集介绍
全新升级的“万卷·丝路2.0”,带来以下三大核心提升:
- **语种数量显著扩充**:在“万卷·丝路1.0” 开源的阿语、俄语、韩语、越南语、泰语5个语种基础上,“万卷·丝路2.0”新增塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,以上述 8 个关键语种,助力全球多语言应用。
- **数据模态全面升级**:与万卷·丝路1.0纯文本数据不同,万卷·丝路2.0为 8 个语种均提供了丰富的图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,极大地满足了多种研究任务的需求。
- **超精细数据,多场景适用**:经成熟数据生产管线及安全加固,结合机器与当地专家人工精细化地标注质检,“万卷·丝路2.0”达工业级数据质量标准,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,开“箱”即用,助开发者减负,专注价值创造。
## 开源内容
图片-文本累计开源超过200W条;
音频-文本开源超过1600小时;
音频-文本开源超过2.5w小时;
SFT数据开源18w条;
开源数据详情:
|语种名称|图文模块数据量(张数)|音频模块时长(小时)|视频模块时长(小时)|SFT模块数据量|
|---|---|---|---|---|
|阿语|220,000|200|1738|23,000|
|俄语|250,000|212|3491|23,000|
|韩语|530,000|202|3412|23,000|
|越南语|450,000|205|2901|23,000|
|泰语|100,000|201|5684|23,000|
|塞尔维亚语|80,000|206|2578|23,000|
|匈牙利语|220,000|208|3470|23,000|
|捷克语|270,000|202|2453|23,000|
**⚠⚠⚠【说明】**
- 本仓库主要为这5个语种资源(阿语、俄语、韩语、越南语、泰语),登录后可以直接下载使用(无需申请)
- 其他3个语种(塞尔维亚语、匈牙利语、捷克语) 请访问这个页面([https://opendatalab.com/OpenDataLab/WanJuanSiLu2](https://opendatalab.com/OpenDataLab/WanJuanSiLu2)),点击申请,作者同意后即可下载使用。
## 数据处理特点:
#### 图片-文本数据:
- 多领域覆盖均衡:来自八个语种国家的维基百科、维基语录、百科全书及主流媒体新闻的高质量图片-文本数据;
- 双重标注创新:Alt-text基础描述 + 视觉模型生成扩展描述,提升信息丰富度;
- 10个高关注领域均匀分布,避免数据倾斜;标签构成:户外场景、室内场景、城市场景、乡村场景、文字科技、自然风光、民俗传统、成年人、食物;
#### 音频-文本数据:
- 音频双ASR校验保证超高质量:本数据集采自主流视频媒体平台转录的音频-文本数据,通过Google和Microsoft双商用ASR引擎交叉验证,确保高精准文本标注,并结合环境噪声消除技术,提高音质;
- 真实场景语音:包含环境噪声的自然对话数据,贴近实际应用,相比其他同类数据集,本数据集在多语种覆盖、对话真实性和标注质量方面具有明显优势;
- 4大数据分类:社会人文、娱乐媒体、学识教育、生活文化;
#### 视频-文本数据:
- 丰富的语种类别,填补数据空白:8种语言(含匈牙利语/塞尔维亚语等)视频总量超16,000小时;与同类数据集相比,该数据集包括了很多低资源语种,填补了这些语言在视频数据集中的空白,是多模态研究和低资源语种处理的宝贵资源;
- 多模态标注体系,构造细粒度标签与描述:同时提供视频画面标注、字幕标注以及视频画面与字幕整合标注三种形式,为多模态模型的研究与开发提供了更全面的信息支持;提供17类多维标签,满足多样化需求;
- 标签构成
一级标签
二级标签
通用
科技与战略
文化
电影与动画
旅行
人物
人物
动物
访谈
场景
音乐
游戏
新闻
教程
体育
其他
其他
#### 特色指令微调SFT数据:
- 文化对抗样本:包含本土居民设计的文化相关问答对,检测模型文化偏见
- 混合质检流程:规则+模型评分筛选翻译数据,降低低资源语种噪声
- 提供非英语文化语料(如本地生活/传统习俗),缓解英文数据主导的刻板印象
- 5大标签构成:文化、代码、本地生活、AI4S、数学
## 许可
万卷·丝路2.0 整体采用CC BY 4.0许可协议。您可以自由共享、改编该数据集,唯需遵循以下条件:
- 署名:您必须适当地标明作者、提供指向本协议的链接,以及指明是否(对原始数据集)做了修改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人同意您或您的使用。
- 没有附加限制:您不得使用法律条款或技术措施来限制他人执行许可证允许的任何操作。
完整协议内容,请访问[CC BY 4.0](https://creativecommons.org/licenses/by/4.0/)协议全文。
## 特别注意事项
请注意,本数据集的某些子集可能受制于其他协议规定。在使用特定子集之前,请务必仔细阅读相关协议,确保合规使用。更为详细的协议信息,请在特定子集的相关文档或元数据中查看。
OpenDataLab作为非盈利机构,倡导和谐友好的开源交流环境,若在开源数据集内发现有侵犯您合法权益的内容,可发送邮件至([OpenDataLab@pjlab.org.cn](mailto:OpenDataLab@pjlab.org.cn)),邮件中请写明侵权相关事实的详细描述并向我们提供相关的权属证明资料。我们将于3个工作日内启动调查处理机制,并采取必要的措施进行处置(如下架相关数据)。但您应确保您投诉的真实性,否则采取措施后所产生的不利后果应由您独立承担。
## 引文
使用 万卷·丝路2.0 ,请添加以下引文:
```
@misc{he2024opendatalabempoweringgeneralartificial,
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin},
year={2024},
eprint={2407.13773},
archivePrefix={arXiv},
primaryClass={cs.DL},
url={https://arxiv.org/abs/2407.13773},
}
```