Journal of the American Pharmaceutical Association Archive (1915-1930)
收藏美国药学会期刊档案数据集 (1915-1930)
概述
该数据集将1930年以前的历史医学出版物转化为结构化、可供AI直接使用的数据。它包含超过10万条记录,提供完整的期刊全文以及经过标准化的元数据(如作者和期刊期号标识符),使其能够立即用于现代机器学习和研究工作流。这不是一个原始档案,而是一个经过处理、可用于生产环境的数据集,专为需要来源清晰、结构化的可靠训练数据的组织设计。
主要用途
- 大型语言模型训练
- 检索增强生成
- 历史分析与研究
- 数据丰富管道
业务需求
机器学习
为构建AI系统的组织提供结构化、高质量、来源清晰的数据。该数据集以标准化、AI就绪的格式提供超过10万条1930年以前的医学和药学记录,使团队能够加速模型开发、提高数据质量,并支持LLM训练、检索增强生成和历史研究等用例。
生命科学商业化
为生命科学组织提供结构化、AI就绪的1930年以前药学和医学出版物访问权限,以加速研究、加强模型开发并支持商业化计划。
真实世界数据
虽然并非现代临床真实世界数据的来源,但该数据集提供了有价值的历史背景,可支持生命科学领域的纵向分析、模型训练和研究。1930年以前的药学出版物为早期药物开发、医疗实践和治疗模式提供了见解。
数据结构
表名: PHARMACEUTICAL_ASSOCIATION_JOURNAL
数据预览(示例记录):
记录以JSON格式存储在RAW_DATA列中,包含以下字段:
author: 作者(例如:"Unknown")issue: 期刊期号标识符(例如:"1865-s1317id1378038")text: 文章全文title: 文章标题type: 类型(例如:"article")
使用示例
提取全文用于训练
sql SELECT raw_data:text::string FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL;
按期刊期号筛选
检索特定期刊期号的所有记录。 sql SELECT raw_data:issue::string AS issue, raw_data:text::string AS text FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL WHERE raw_data:issue::string = 1869-s1317id1378041 LIMIT 100;
探索作者分布
分析数据集中作者的分布情况。 sql SELECT raw_data:author::string AS author, COUNT(*) AS record_count FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL GROUP BY author ORDER BY record_count DESC LIMIT 20;
定价信息
产品名称为“Pharmaceutical Journal Enterprise Dataset”。定价模式为“按需请求”。
提供商信息
提供商: Devin Media Corp. 专业领域: 提供用于AI训练的高级历史数据,涵盖医学、金融、时尚、法律和文化等领域,包括一些社会最负盛名的出版物。 数据集特点: 所有数据集均为1930年以前、经验证的公共领域/无版权;经过专业OCR处理和深度清洗;具有来源追踪和偏见审计;格式为JSONL,适合AI使用;通过安全API交付。
数据集属性
- 类别: AI & ML, Life Sciences Commercialization, Machine Learning, Real World Data (RWD)
- 更新频率: 每年
- 地理覆盖范围: 全球
- 云区域可用性(AWS示例): 亚太地区(雅加达)、亚太地区(孟买)、亚太地区(大阪)、亚太地区(首尔)等。
- 法律条款: 标准条款
联系方式
- 销售与支持邮箱: hello@devinmediacorp.com
- 文档: 提供相关文档(页面中提及,未提供具体链接)。



