万卷·百华行业语料库(样例)
收藏OpenDataLab2026-06-14 更新2025-12-27 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WanJuan-BaiHua
下载链接
链接失效反馈官方服务:
资源简介:
万卷·百华大规模专业领域数据集,是面向金融、能源、文化教育、政务、通信、交通运输、医疗健康、汽车、烟草、计算机等领域大模型训练的高质量、细分类、多模态的专用语料
The Wanjuan·Baihua Large-scale Professional Domain Dataset is a high-quality, finely categorized, multi-modal specialized corpus designed for large language model training across sectors including finance, energy, culture and education, government affairs, telecommunications, transportation, medical and health care, automotive, tobacco, computer science and other fields.
提供机构:
OpenDataLab
创建时间:
2025-06-04
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是万卷·百华大规模专业领域语料库的样例,旨在为金融、能源、政务、医疗等多个行业的大模型训练提供高质量、精细处理的多模态专用语料。当前样例展示了金融领域的基金公告数据,以收集社区反馈并规划后续发布顺序。
以上内容由遇见数据集搜集并总结生成



