five

JAMA Internal Medicine Journal for Medical AI Training 1908-1930

收藏
Snowflake2026-05-06 更新2026-05-08 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW4HLE
下载链接
链接失效反馈
官方服务:
资源简介:
JAMA Internal Medicine (originally Archives of Internal Medicine) from 1908‑1930. Professional OCR, full provenance tracking, bias audit included. Ready for LLM training and medical NLP research. **Use this dataset to:** - Train domain‑specific LLMs on peer‑reviewed internal medicine literature - Extract clinical entities (cardiac conditions, endocrine disorders, infectious diseases) - Understand pre‑1930 diagnostic criteria and treatment approaches - Study the evolution of medical terminology in areas like cardiology, nephrology, and metabolism - Support research in medical history and longitudinal clinical language **What makes this different from raw OCR archives:** - Professionally cleaned and structured (not messy PDFs) - Full provenance tracking (Devin Media Corp) - Bias audit with historical context notice - 100% public domain (pre‑1930) - Snowflake‑ready JSONL format **Sample content areas:** - Cardiac pathology and electrophysiology - Vasomotor regulation and blood pressure - Thyroid function and metabolic disorders - Infectious disease (tuberculosis, syphilis) - Clinical case reports and therapeutic outcomes <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-05-06
原始信息汇总

数据集概述:JAMA Internal Medicine Journal for Medical AI Training 1908-1930

该数据集由 Devin Media Corp. 提供,收录了《美国医学会内科杂志》(JAMA Internal Medicine,原名 Archives of Internal Medicine)1908年至1930年的历史医学文献。数据经过专业OCR处理、清洗和偏见审计,适用于大语言模型训练和医学自然语言处理研究。

1. 核心特征与优势

  • 数据来源:1908-1930年间的《美国医学会内科杂志》,属于公共领域(pre-1930),版权清晰。
  • 数据质量:经过专业OCR(光学字符识别)处理并结构化清洗,非原始PDF。
  • 完整性:包含完整的来源追踪(Devin Media Corp.)、历史背景偏见审计说明。
  • 格式:以JSONL格式提供,可直接用于Snowflake平台。
  • 刷新频率:每年更新一次。
  • 交付方式:安全共享(Secure share)。

2. 数据集用途

数据集支持以下典型应用场景:

  • 模型开发:训练特定领域的LLM(大语言模型),支持临床文本理解、诊断推理和时间语言建模。
  • 实体识别:提取临床实体,如心脏疾病、内分泌疾病、传染病及治疗方法,用于预1930年医学术语的高精度命名实体识别。
  • 文本摘要:利用全文文章与原始标题作为源-摘要对,训练模型生成长篇历史病例报告和研究文章的精炼摘要。
  • 临床路径分析:分析二十年间内科诊断标准、治疗方法和临床推理的演变,支持医学史研究和纵向临床建模。

3. 数据字典

数据表名为 JAMA_INTERNAL_MEDICINE,包含以下列:

列名 数据类型 描述
ISSUE Varchar 期刊期号(如:1917-sim_jama-internal-medicine_1917-03-15_19)
TITLE Varchar 文章标题(部分条目显示为截断文本)
AUTHOR Varchar 作者信息(示例中多显示为“Unknown”)
TYPE Varchar 文章类型(如:article)
TEXT Varchar 全文文本内容(经过清洗的OCR文本)
INGESTION_DATE Timestamp_NTZ 数据摄入时间(示例:2026-05-06 10:50:04.753)

数据预览示例:展示了从1914年至1927年间的多篇文章片段,内容涵盖胰腺实验、流感、心脏病学、代谢疾病、哮喘治疗、尿胆原检测等,文本长度从简短摘要到数百字不等。

4. 使用示例(SQL查询)

平台提供了多个可直接运行的SQL查询示例,用于快速探索数据:

  • 查看数据概览SELECT ISSUE, TITLE, TYPE, LENGTH(TEXT) AS TEXT_LENGTH FROM JAMA_INTERNAL_MEDICINE LIMIT 10;
  • 搜索特定疾病文章SELECT ISSUE, TITLE, LENGTH(TEXT) AS TEXT_LENGTH FROM JAMA_INTERNAL_MEDICINE WHERE TEXT ILIKE %heart% LIMIT 20;
  • 按年份统计文章数量SELECT SUBSTR(ISSUE, 1, 4) AS YEAR, COUNT(*) AS ARTICLE_COUNT FROM JAMA_INTERNAL_MEDICINE WHERE TYPE = article GROUP BY YEAR ORDER BY YEAR;

5. 其他信息

  • 提供方:Devin Media Corp.,专注于为AI训练提供高质量历史数据,涵盖医学、金融、时尚、法律等领域。
  • 定价:页面显示“Get Unlock New Insights”,具体定价需联系获取。
  • 联系方式:销售/支持邮箱均为 hello@devinmediacorp.com。
  • 相关数据集:该提供方还拥有其他历史医学数据集,如《加拿大护士档案》(The Canadian Nurse Archive)、《医学和外科报道者档案》(Medical and Surgical Reporter Archive)、《JAMA皮肤病学》(JAMA Dermatology)等。
  • 分类:AI & ML(人工智能与机器学习)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作