JAMA Internal Medicine Journal for Medical AI Training 1908-1930
收藏Snowflake2026-05-06 更新2026-05-08 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW4HLE
下载链接
链接失效反馈官方服务:
资源简介:
JAMA Internal Medicine (originally Archives of Internal Medicine) from 1908‑1930. Professional OCR, full provenance tracking, bias audit included. Ready for LLM training and medical NLP research.
**Use this dataset to:**
- Train domain‑specific LLMs on peer‑reviewed internal medicine literature
- Extract clinical entities (cardiac conditions, endocrine disorders, infectious diseases)
- Understand pre‑1930 diagnostic criteria and treatment approaches
- Study the evolution of medical terminology in areas like cardiology, nephrology, and metabolism
- Support research in medical history and longitudinal clinical language
**What makes this different from raw OCR archives:**
- Professionally cleaned and structured (not messy PDFs)
- Full provenance tracking (Devin Media Corp)
- Bias audit with historical context notice
- 100% public domain (pre‑1930)
- Snowflake‑ready JSONL format
**Sample content areas:**
- Cardiac pathology and electrophysiology
- Vasomotor regulation and blood pressure
- Thyroid function and metabolic disorders
- Infectious disease (tuberculosis, syphilis)
- Clinical case reports and therapeutic outcomes
<p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-05-06
原始信息汇总
数据集概述:JAMA Internal Medicine Journal for Medical AI Training 1908-1930
该数据集由 Devin Media Corp. 提供,收录了《美国医学会内科杂志》(JAMA Internal Medicine,原名 Archives of Internal Medicine)1908年至1930年的历史医学文献。数据经过专业OCR处理、清洗和偏见审计,适用于大语言模型训练和医学自然语言处理研究。
1. 核心特征与优势
- 数据来源:1908-1930年间的《美国医学会内科杂志》,属于公共领域(pre-1930),版权清晰。
- 数据质量:经过专业OCR(光学字符识别)处理并结构化清洗,非原始PDF。
- 完整性:包含完整的来源追踪(Devin Media Corp.)、历史背景偏见审计说明。
- 格式:以JSONL格式提供,可直接用于Snowflake平台。
- 刷新频率:每年更新一次。
- 交付方式:安全共享(Secure share)。
2. 数据集用途
数据集支持以下典型应用场景:
- 模型开发:训练特定领域的LLM(大语言模型),支持临床文本理解、诊断推理和时间语言建模。
- 实体识别:提取临床实体,如心脏疾病、内分泌疾病、传染病及治疗方法,用于预1930年医学术语的高精度命名实体识别。
- 文本摘要:利用全文文章与原始标题作为源-摘要对,训练模型生成长篇历史病例报告和研究文章的精炼摘要。
- 临床路径分析:分析二十年间内科诊断标准、治疗方法和临床推理的演变,支持医学史研究和纵向临床建模。
3. 数据字典
数据表名为 JAMA_INTERNAL_MEDICINE,包含以下列:
| 列名 | 数据类型 | 描述 |
|---|---|---|
| ISSUE | Varchar | 期刊期号(如:1917-sim_jama-internal-medicine_1917-03-15_19) |
| TITLE | Varchar | 文章标题(部分条目显示为截断文本) |
| AUTHOR | Varchar | 作者信息(示例中多显示为“Unknown”) |
| TYPE | Varchar | 文章类型(如:article) |
| TEXT | Varchar | 全文文本内容(经过清洗的OCR文本) |
| INGESTION_DATE | Timestamp_NTZ | 数据摄入时间(示例:2026-05-06 10:50:04.753) |
数据预览示例:展示了从1914年至1927年间的多篇文章片段,内容涵盖胰腺实验、流感、心脏病学、代谢疾病、哮喘治疗、尿胆原检测等,文本长度从简短摘要到数百字不等。
4. 使用示例(SQL查询)
平台提供了多个可直接运行的SQL查询示例,用于快速探索数据:
- 查看数据概览:
SELECT ISSUE, TITLE, TYPE, LENGTH(TEXT) AS TEXT_LENGTH FROM JAMA_INTERNAL_MEDICINE LIMIT 10; - 搜索特定疾病文章:
SELECT ISSUE, TITLE, LENGTH(TEXT) AS TEXT_LENGTH FROM JAMA_INTERNAL_MEDICINE WHERE TEXT ILIKE %heart% LIMIT 20; - 按年份统计文章数量:
SELECT SUBSTR(ISSUE, 1, 4) AS YEAR, COUNT(*) AS ARTICLE_COUNT FROM JAMA_INTERNAL_MEDICINE WHERE TYPE = article GROUP BY YEAR ORDER BY YEAR;
5. 其他信息
- 提供方:Devin Media Corp.,专注于为AI训练提供高质量历史数据,涵盖医学、金融、时尚、法律等领域。
- 定价:页面显示“Get Unlock New Insights”,具体定价需联系获取。
- 联系方式:销售/支持邮箱均为 hello@devinmediacorp.com。
- 相关数据集:该提供方还拥有其他历史医学数据集,如《加拿大护士档案》(The Canadian Nurse Archive)、《医学和外科报道者档案》(Medical and Surgical Reporter Archive)、《JAMA皮肤病学》(JAMA Dermatology)等。
- 分类:AI & ML(人工智能与机器学习)。



