DavidLanz/medical_pretrain
收藏Hugging Face2023-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DavidLanz/medical_pretrain
下载链接
链接失效反馈官方服务:
资源简介:
medical_pretrain_tw.json数据集包含360,000个条目,来源于医学百科全书数据,用于预训练目的,以注入医学知识。medical_book_zh.json数据集包含8,475个条目,来源于医学教科书文本数据,已处理为每个部分最多包含2048个字符的小段落。
提供机构:
DavidLanz
原始信息汇总
数据集描述
-
medical_pretrain_tw.json: 该数据集包含360,000条记录,来源于FreedomIntelligence/huatuo_encyclopedia_qa的医学百科数据。这些记录是问题和答案的组合,形成连贯的句子文本字段,旨在用于预训练以注入医学知识。
-
medical_book_zh.json: 该数据集包含8,475条记录,来源于医学教科书的文本数据。数据源来自这里,原始数据集从Google Drive获取。经过处理,将长段落分割成小节,每节最多包含2048个字符。
数据格式
-
medical_pretrain_tw.json: JSON格式,包含文本字段。
-
medical_book_zh.json: JSON格式,包含文本字段。
许可证
请参考各自数据源的许可证信息。
数据集引用
如果您在研究或工作中使用此数据集,请考虑引用上述指定的原始数据源。



