five

JAMA Pediatrics Clinical Dataset (1911–1930)

收藏
Snowflake2026-03-26 更新2026-03-28 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3Q8V
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset contains over 28,000 structured records from the Journal of the American Medical Association (JAMA) Pediatrics publications spanning 1911–1930. Each record has been professionally processed and prepared for AI training and research use, with full provenance and ethical documentation included. **What this data does for your model:**Your model learns authentic early 20th‑century pediatric practice from one of JAMA's premier specialty journals, covering child health from infancy through adolescence.Your model retrieves original research on infectious diseases (diphtheria, measles, scarlet fever), childhood nutrition, growth and development, and pediatric surgery.Your model trains on the language of well‑baby care, vaccination campaigns, school health programs, and the emergence of pediatrics as a distinct medical specialty.Your model understands the evolution of child medicine from anecdotal case reports to systematic clinical research during the formative years of American pediatrics. **Dataset Features:** - 28,000+ structured text records - 120+ curated publication issues - Fully parsed JSONL format - Snowflake-native queryable table - Metadata fields including author, issue, and source file - Pre-1930 verified public domain content <p><br/></p> **Processing Standards:** - High-quality OCR with artifact cleaning - Structured data extraction (author, issue, text) - Preservation of historical formatting - Full provenance and licensing documentation - Bias audit notice included <p><br/></p> **Use Cases:** - AI/LLM training and fine-tuning - Historical medical research - Natural language processing (NLP) - Dataset benchmarking and evaluation This dataset is designed to support high-quality, transparent AI development. Note: As a historical dataset, language reflects the medical and social context of its time and should be interpreted accordingly. <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-03-25
原始信息汇总

JAMA Pediatrics Clinical Dataset (1911–1930)

数据集概述

  • 数据集名称:JAMA Pediatrics Clinical Dataset (1911–1930)
  • 提供商:Devin Media Corp.
  • 内容描述:包含来自《美国医学会杂志》(JAMA)儿科学出版物(1911年至1930年)的超过28,000条结构化记录。
  • 数据特征:结构化儿科临床数据,涵盖基础和早期现代医学文献。

数据集详情

  • 记录数量:28,000+ 条结构化文本记录
  • 覆盖时间范围:1911年至1930年
  • 出版物数量:120+ 个精选出版期次
  • 数据格式:完全解析的JSONL格式
  • 存储形式:Snowflake原生可查询表
  • 元数据字段:包括作者、期次和源文件
  • 内容状态:经核实的1930年前公共领域内容

处理标准

  • 高质量OCR及伪影清理
  • 结构化数据提取(作者、期次、文本)
  • 保留历史格式
  • 完整的来源和许可文档
  • 包含偏见审计说明

使用案例

  • AI/LLM训练和微调
  • 历史医学研究
  • 自然语言处理(NLP)
  • 数据集基准测试和评估

业务需求

机器学习

  • 为AI模型训练提供高质量、1930年前的儿科医学文献,经过整理和结构化。
  • 提供干净、具有历史背景的文本,适用于微调、基准测试以及减少医学和通用语言模型中的幻觉。

真实世界数据(RWD)

  • 源自20世纪早期医学出版物的历史儿科临床叙述和观察。
  • 支持纵向分析、回顾性研究以及基于真实临床文档的模型开发。

定量分析

  • 具有时间和作者元数据的结构化文本数据,支持对儿科医学趋势、术语演变以及1911年至1930年间出版模式进行统计分析。

数据字典

  • 表名:JAMA_PEDIATRICS_1911_1920_CLEAN
  • 列信息
    • FILE_NAME (Varchar)
    • AUTHOR (Varchar)
    • ISSUE (Varchar)
    • TEXT (Varchar)

使用示例

探索随时间变化的儿科主题

sql SELECT issue, COUNT(*) AS article_count FROM PUBLIC.JAMA_PEDIATRICS_1911_1920_CLEAN GROUP BY issue ORDER BY issue;

提取用于模型训练的临床文本样本

sql SELECT file_name, LEFT(text, 1000) AS sample_text FROM PUBLIC.JAMA_PEDIATRICS_1911_1920_CLEAN LIMIT 10;

分析作者分布

sql SELECT author, COUNT(*) AS article_count FROM PUBLIC.JAMA_PEDIATRICS_1911_1920_CLEAN GROUP BY author ORDER BY article_count DESC;

定价

  • 产品名称:Enterprise Access JAMA Pediatrics Dataset 1911 to 1930
  • 访问方式:按请求获取

数据集提供商其他产品

  • Journal of the American Medical Association (JAMA) Dermatology Historical Archive
  • JAMA Surgery Dataset 1911 to 1930 Cleaned Structured AI Ready
  • Journal of the American Medical Association (Dermatology) — Complete Archive 1920-1930
  • Historical Ophthalmology Full Dataset (JAMA, 1870s–1890s)
  • Journal of the American Podiatric Medical Association 1907-1930 Dataset

类别

  • AI & ML
  • Machine Learning
  • Quantitative Analysis
  • Real World Data (RWD)

联系信息

  • 销售:hello@devinmediacorp.com
  • 支持:hello@devinmediacorp.com

更新频率

  • 每年

地理覆盖范围

  • 全球

云区域可用性

AWS

  • Canada (Central)
  • EU (Frankfurt)
  • EU (Ireland)
  • EU (London)
  • 31 More

法律条款

  • 标准条款

提供商简介

Devin Media Corp. 专注于为AI训练提供优质历史数据。提供全面、来源可追溯、经过偏见审计的1930年前出版物和档案,经过专业清理和结构化,适用于机器学习应用。数据集涵盖医学、金融、时尚、法律和文化领域,包括一些社会中最负盛名和标志性的出版物。每个数据集均满足:1930年前且经核实为公共领域/无版权;经过专业OCR处理和深度清理;来源可追溯且经过偏见审计;格式化为JSONL,适合AI使用;通过安全API交付(无文件下载)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作