five

IndustryCorpus_medicine 医疗健康专业预训练数据集

收藏
魔搭社区2026-05-15 更新2024-09-14 收录
下载链接:
https://modelscope.cn/datasets/BAAI/IndustryCorpus_medicine
下载链接
链接失效反馈
官方服务:
资源简介:
智源人工智能研究院IndustryCorpus医疗健康专业高质量预训练数据集,可用于医疗健康行业语言大模型的预训练或继续预训练阶段。

Developed by Beijing Academy of Artificial Intelligence (BAAI), the IndustryCorpus high-quality professional healthcare pre-training dataset can be used for the pre-training or continued pre-training stages of large language models (LLMs) in the healthcare industry.
提供机构:
maas
创建时间:
2024-09-12
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
IndustryCorpus_medicine是BAAI发布的医疗健康专业预训练数据集,作为多行业分类数据集的医疗子集,通过22个数据处理操作符从大规模开源数据中清洗和过滤,生成高质量中英文数据,并验证了在医疗行业模型上的性能提升。该数据集大小为90.48GB,包含中文数据的多标签标注,旨在支持企业智能转型和行业应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务