five

JAMA Surgery (1911–1930) – Extract Surgical Entities for LLM & NLP Training

收藏
Snowflake2026-03-26 更新2026-03-28 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3QG7
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset includes cleaned historical surgical content from JAMA Surgery spanning 1911 to 1930. <p><br/></p> What you can do with this data: - Train surgical entity recognition models for procedure identification - Build domain-specific language models using historical surgical terminology - Analyze how surgical documentation and terminology evolved across two decades - Support pretraining for clinical LLMs requiring specialty-specific content <p><br/></p> Data quality features: - Professionally OCR'd and cleaned (not raw PDF/text) - Structured rows with consistent schema - Bias-audited with full provenance tracking documented - 100% public domain content (pre-1930) with no copyright restrictions <p><br/></p> This dataset is designed for NLP researchers, ML engineers, and medical AI teams building models for healthcare applications. <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-03-26
原始信息汇总

JAMA Surgery Dataset 1911 to 1930 Cleaned Structured AI Ready

数据集概述

该数据集包含1911年至1930年《JAMA Surgery》历史外科文献的精选和专业处理集合。所有内容均来自经过验证的公共领域档案,并转换为适合人工智能训练、研究和高级分析的结构化、机器可读格式。

数据内容与处理

  • 时间范围:1911年至1930年。
  • 内容来源:来自《JAMA Surgery》的历史外科文献。
  • 处理标准
    • 经过手动验证的高质量OCR。
    • 去除了噪声和格式伪影。
    • 保留了原始含义和结构。
    • 为下游AI应用提供一致的架构。
    • 完整的来源追踪。
  • 数据状态:所有材料均为公共领域且符合道德规范来源。

数据结构

表名JAMA_SURGERY_1911_1930_CLEAN

列定义

  • FILE_NAME:Varchar类型。
  • AUTHOR:Varchar类型。
  • ISSUE:Varchar类型。
  • TEXT:Varchar类型。

数据预览示例

  • sim_jama-surgery_1926-05_12_5.jsonl | CELE). WaAttTerR E. Danpy,M.D., BALTIMORE | 1926-May | OTHER PERIODICAL PUBLICATIONS of the American Medical Association THE JOURNAL OF THE AMERICAN MEDICAL ASSOCIATION Weekly...
  • sim_jama-surgery_1923-05_6_3.jsonl | EDWIN P. LEHMAN, M.D. | 1923-May | 4. Until from 52 to 66 per cent. of the pulmonary circulation is cut off there is no significant variation in the general circulatory condition of the animal...
  • sim_jama-surgery_1929-01_18_1.jsonl | CANCER OF THE THYROID GLAND. Howarp M. Crute, M.D., anp | 1929-January | OTHER PERIODICAL PUBLICATIONS of the American Medical Association THE JOURNAL OF THE AMERICAN MEDICAL ASSOCIATION Weekly...

应用场景

  • 机器学习:支持使用高质量、结构化的外科文献训练和微调领域特定模型。
  • 真实世界数据:为研究和分析提供历史外科见解和纵向数据。
  • 定量分析:支持对手术趋势、作者身份和出版模式随时间变化进行结构化分析。
  • 具体用例
    • 训练特定领域的医学和外科语言模型。
    • 外科实践的历史研究和趋势分析。
    • 自然语言处理和语义搜索应用。
    • 检索增强生成系统。
    • 医学教育和档案分析。

使用示例

探索随时间变化的外科主题

sql SELECT issue, COUNT(*) AS article_count FROM PUBLIC.jama_surgery_1911_1930_clean GROUP BY issue ORDER BY issue;

识别外科文献的主要贡献作者

sql SELECT author, COUNT(*) AS publication_count FROM PUBLIC.jama_surgery_1911_1930_clean GROUP BY author ORDER BY publication_count DESC LIMIT 10;

预览用于NLP和AI的外科内容

sql SELECT file_name, author, LEFT(text, 500) AS preview FROM PUBLIC.jama_surgery_1911_1930_clean LIMIT 10;

数据更新

  • 更新频率:每年。

提供商信息

  • 提供商:Devin Media Corp.
  • 销售联系:hello@devinmediacorp.com
  • 支持联系:hello@devinmediacorp.com
二维码
社区交流群
二维码
科研交流群
商业服务