five

DavidLanz/medical_pretrain

收藏
Hugging Face2023-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DavidLanz/medical_pretrain
下载链接
链接失效反馈
官方服务:
资源简介:
medical_pretrain_tw.json数据集包含360,000个条目,来源于医学百科全书数据,用于预训练目的,以注入医学知识。medical_book_zh.json数据集包含8,475个条目,来源于医学教科书文本数据,已处理为每个部分最多包含2048个字符的小段落。
提供机构:
DavidLanz
原始信息汇总

数据集描述

  • medical_pretrain_tw.json: 该数据集包含360,000条记录,来源于FreedomIntelligence/huatuo_encyclopedia_qa的医学百科数据。这些记录是问题和答案的组合,形成连贯的句子文本字段,旨在用于预训练以注入医学知识。

  • medical_book_zh.json: 该数据集包含8,475条记录,来源于医学教科书的文本数据。数据源来自这里,原始数据集从Google Drive获取。经过处理,将长段落分割成小节,每节最多包含2048个字符。

数据格式

  • medical_pretrain_tw.json: JSON格式,包含文本字段。

  • medical_book_zh.json: JSON格式,包含文本字段。

许可证

请参考各自数据源的许可证信息。

数据集引用

如果您在研究或工作中使用此数据集,请考虑引用上述指定的原始数据源。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作