JAMA Surgery (1911–1930) – Extract Surgical Entities for LLM & NLP Training
收藏Snowflake2026-03-26 更新2026-03-28 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3QG7
下载链接
链接失效反馈官方服务:
资源简介:
This dataset includes cleaned historical surgical content from JAMA Surgery spanning 1911 to 1930.
<p><br/></p>
What you can do with this data:
- Train surgical entity recognition models for procedure identification
- Build domain-specific language models using historical surgical terminology
- Analyze how surgical documentation and terminology evolved across two decades
- Support pretraining for clinical LLMs requiring specialty-specific content
<p><br/></p>
Data quality features:
- Professionally OCR'd and cleaned (not raw PDF/text)
- Structured rows with consistent schema
- Bias-audited with full provenance tracking documented
- 100% public domain content (pre-1930) with no copyright restrictions
<p><br/></p>
This dataset is designed for NLP researchers, ML engineers, and medical AI teams building models for healthcare applications.
<p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-03-26
原始信息汇总
JAMA Surgery Dataset 1911 to 1930 Cleaned Structured AI Ready
数据集概述
该数据集包含1911年至1930年《JAMA Surgery》历史外科文献的精选和专业处理集合。所有内容均来自经过验证的公共领域档案,并转换为适合人工智能训练、研究和高级分析的结构化、机器可读格式。
数据内容与处理
- 时间范围:1911年至1930年。
- 内容来源:来自《JAMA Surgery》的历史外科文献。
- 处理标准:
- 经过手动验证的高质量OCR。
- 去除了噪声和格式伪影。
- 保留了原始含义和结构。
- 为下游AI应用提供一致的架构。
- 完整的来源追踪。
- 数据状态:所有材料均为公共领域且符合道德规范来源。
数据结构
表名:JAMA_SURGERY_1911_1930_CLEAN
列定义:
FILE_NAME:Varchar类型。AUTHOR:Varchar类型。ISSUE:Varchar类型。TEXT:Varchar类型。
数据预览示例:
sim_jama-surgery_1926-05_12_5.jsonl|CELE). WaAttTerR E. Danpy,M.D., BALTIMORE|1926-May|OTHER PERIODICAL PUBLICATIONS of the American Medical Association THE JOURNAL OF THE AMERICAN MEDICAL ASSOCIATION Weekly...sim_jama-surgery_1923-05_6_3.jsonl|EDWIN P. LEHMAN, M.D.|1923-May|4. Until from 52 to 66 per cent. of the pulmonary circulation is cut off there is no significant variation in the general circulatory condition of the animal...sim_jama-surgery_1929-01_18_1.jsonl|CANCER OF THE THYROID GLAND. Howarp M. Crute, M.D., anp|1929-January|OTHER PERIODICAL PUBLICATIONS of the American Medical Association THE JOURNAL OF THE AMERICAN MEDICAL ASSOCIATION Weekly...
应用场景
- 机器学习:支持使用高质量、结构化的外科文献训练和微调领域特定模型。
- 真实世界数据:为研究和分析提供历史外科见解和纵向数据。
- 定量分析:支持对手术趋势、作者身份和出版模式随时间变化进行结构化分析。
- 具体用例:
- 训练特定领域的医学和外科语言模型。
- 外科实践的历史研究和趋势分析。
- 自然语言处理和语义搜索应用。
- 检索增强生成系统。
- 医学教育和档案分析。
使用示例
探索随时间变化的外科主题
sql SELECT issue, COUNT(*) AS article_count FROM PUBLIC.jama_surgery_1911_1930_clean GROUP BY issue ORDER BY issue;
识别外科文献的主要贡献作者
sql SELECT author, COUNT(*) AS publication_count FROM PUBLIC.jama_surgery_1911_1930_clean GROUP BY author ORDER BY publication_count DESC LIMIT 10;
预览用于NLP和AI的外科内容
sql SELECT file_name, author, LEFT(text, 500) AS preview FROM PUBLIC.jama_surgery_1911_1930_clean LIMIT 10;
数据更新
- 更新频率:每年。
提供商信息
- 提供商:Devin Media Corp.
- 销售联系:hello@devinmediacorp.com
- 支持联系:hello@devinmediacorp.com



