松溪县公安局经侦大队通讯表
收藏Salinas
Salinas数据集是一个高光谱遥感图像数据集,包含16个波段,覆盖了加利福尼亚州Salinas山谷的农业区域。该数据集主要用于高光谱图像分类和土地覆盖分析。
www.ehu.eus 收录
MNBVC
MNBVC数据集是一个超大规模的中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
乳腺癌患者检查结果
该数据采集来自乳腺癌随访微信小程序,共采集499例患者肿瘤分级、分期、血生化检测等指标,目的在于通过监测乳腺癌患者指标的高低对患者进行预后风险评估,通过指标的高低及时发现复发征兆并及时采取措施,同时可为复发风险提供参考。
国家人口健康科学数据中心 收录
