five

Journal of the American Pharmaceutical Association Archive (1915-1930)

收藏
Snowflake2026-04-02 更新2026-04-03 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3ROI
下载链接
链接失效反馈
官方服务:
资源简介:
The Pharmaceutical Association Journal dataset transforms pre-1930 historical medical publications into structured, AI-ready data. **What this data does for your model:** - Your model learns authentic early 20th‑century American pharmaceutical science from the flagship journal of the American Pharmaceutical Association - Your model retrieves original research on pharmacy education, professional standards, pharmaceutical chemistry, and the regulatory debates that shaped the profession . - Your model trains on the language of early pharmacopoeia development, drug standards, and the commercialization of American pharmacy . - Your model understands the evolution of pharmaceutical practice through World War I, Prohibition, the Great Depression, and the founding of the FDA era. Containing over 100,000 records, this dataset includes full-text journal content alongside normalized metadata such as author and issue identifiers, making it immediately usable for modern machine learning and research workflows. Rather than raw scans or unstructured text, this dataset has been carefully cleaned, formatted, and standardized to support: - Large language model training - Retrieval-augmented generation (RAG) - Historical analysis and research - Data enrichment pipelines This is not a raw archive, it is a processed, production-ready dataset designed for organizations that require reliable, structured training data with clear provenance. <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-04-02
原始信息汇总

美国药学会期刊档案数据集 (1915-1930)

概述

该数据集将1930年以前的历史医学出版物转化为结构化、可供AI直接使用的数据。它包含超过10万条记录,提供完整的期刊全文以及经过标准化的元数据(如作者和期刊期号标识符),使其能够立即用于现代机器学习和研究工作流。这不是一个原始档案,而是一个经过处理、可用于生产环境的数据集,专为需要来源清晰、结构化的可靠训练数据的组织设计。

主要用途

  • 大型语言模型训练
  • 检索增强生成
  • 历史分析与研究
  • 数据丰富管道

业务需求

机器学习

为构建AI系统的组织提供结构化、高质量、来源清晰的数据。该数据集以标准化、AI就绪的格式提供超过10万条1930年以前的医学和药学记录,使团队能够加速模型开发、提高数据质量,并支持LLM训练、检索增强生成和历史研究等用例。

生命科学商业化

为生命科学组织提供结构化、AI就绪的1930年以前药学和医学出版物访问权限,以加速研究、加强模型开发并支持商业化计划。

真实世界数据

虽然并非现代临床真实世界数据的来源,但该数据集提供了有价值的历史背景,可支持生命科学领域的纵向分析、模型训练和研究。1930年以前的药学出版物为早期药物开发、医疗实践和治疗模式提供了见解。

数据结构

表名: PHARMACEUTICAL_ASSOCIATION_JOURNAL

数据预览(示例记录): 记录以JSON格式存储在RAW_DATA列中,包含以下字段:

  • author: 作者(例如:"Unknown")
  • issue: 期刊期号标识符(例如:"1865-s1317id1378038")
  • text: 文章全文
  • title: 文章标题
  • type: 类型(例如:"article")

使用示例

提取全文用于训练

sql SELECT raw_data:text::string FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL;

按期刊期号筛选

检索特定期刊期号的所有记录。 sql SELECT raw_data:issue::string AS issue, raw_data:text::string AS text FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL WHERE raw_data:issue::string = 1869-s1317id1378041 LIMIT 100;

探索作者分布

分析数据集中作者的分布情况。 sql SELECT raw_data:author::string AS author, COUNT(*) AS record_count FROM PHARMACEUTICAL_ASSOCIATION.PHARMACEUTICAL_ASSOCIATION_JOURNAL GROUP BY author ORDER BY record_count DESC LIMIT 20;

定价信息

产品名称为“Pharmaceutical Journal Enterprise Dataset”。定价模式为“按需请求”。

提供商信息

提供商: Devin Media Corp. 专业领域: 提供用于AI训练的高级历史数据,涵盖医学、金融、时尚、法律和文化等领域,包括一些社会最负盛名的出版物。 数据集特点: 所有数据集均为1930年以前、经验证的公共领域/无版权;经过专业OCR处理和深度清洗;具有来源追踪和偏见审计;格式为JSONL,适合AI使用;通过安全API交付。

数据集属性

  • 类别: AI & ML, Life Sciences Commercialization, Machine Learning, Real World Data (RWD)
  • 更新频率: 每年
  • 地理覆盖范围: 全球
  • 云区域可用性(AWS示例): 亚太地区(雅加达)、亚太地区(孟买)、亚太地区(大阪)、亚太地区(首尔)等。
  • 法律条款: 标准条款

联系方式

  • 销售与支持邮箱: hello@devinmediacorp.com
  • 文档: 提供相关文档(页面中提及,未提供具体链接)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作