five

Scientific American Archive (1846–1930)

收藏
Snowflake2026-04-14 更新2026-04-15 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3VKQ
下载链接
链接失效反馈
官方服务:
资源简介:
Complete pre-1930 archive of Scientific American, the oldest continuously published magazine in the United States. **391,590 rows** of clean, structured text documenting nearly a century of scientific discovery, invention, and popular science writing. **What this data does for your model:** - Your model learns authentic 19th‑ and early 20th‑century scientific writing from the oldest continuously published magazine in the United States. - Your model retrieves original reports on Edison's light bulb, the telephone, the automobile, the airplane, and the technological breakthroughs that shaped the modern world. - Your model trains on the language of popular science, engineering, chemistry, physics, biology, and medicine written for the general reader. - Your model understands the evolution of scientific communication from the industrial age through the dawn of modern physics and aviation. **What's inside:** - Original reports on Edison's light bulb, the telephone, the automobile, and the airplane - Early discussions of electricity, radio, wireless communication, and X‑rays - Engineering breakthroughs in bridges, railroads, and skyscrapers - Medical discoveries including anesthesia, antiseptic surgery, and vaccines - Patents, inventions, and technological forecasting **Perfect for:** - LLM fine‑tuning on historical scientific text - NLP research on the evolution of scientific language - Digital humanities and history of science - Education technology and curriculum development **Format:** Snowflake-native JSONL with columns: ISSUE, TITLE, AUTHOR, TYPE, TEXT. Fully cleaned, bias‑audited, and ready for AI training. <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-04-14
原始信息汇总

Scientific American Archive (1846–1930)

概述

  • 数据集名称:Scientific American Archive (1846–1930)
  • 提供商:Devin Media Corp.
  • 描述:完整的1930年以前《科学美国人》档案,这是美国历史最悠久的连续出版杂志。包含391,590行经过清理、结构化的文本,记录了近一个世纪的科学发现、发明和科普写作。
  • 数据格式:Snowflake原生JSONL格式,包含列:ISSUE, TITLE, AUTHOR, TYPE, TEXT。数据经过完全清理、偏见审核,适用于AI训练。
  • 覆盖时间:1846年至1930年。
  • 数据量:391,590行。

内容详情

包含内容

  • 关于爱迪生电灯、电话、汽车和飞机的原始报道。
  • 关于电力、无线电和无线通信的早期讨论。
  • 桥梁、铁路和摩天大楼的工程突破。
  • 包括麻醉、抗菌手术和疫苗在内的医学发现。
  • 面向普通读者的化学、物理、生物学和天文学内容。
  • 专利、发明和技术预测。

适用场景

  • 历史科学文本的LLM微调。
  • 科学语言演变的NLP研究。
  • 数字人文和科学史研究。
  • 教育技术和课程开发。
  • 科普写作的模型训练。

数据结构

表名

  • SCIAM_CORPUS

列定义

  • ISSUE (Varchar)
  • TITLE (Varchar)
  • AUTHOR (Varchar)
  • TYPE (Varchar)
  • TEXT (Varchar)
  • INGESTION_DATE (Timestamp_NTZ)

业务需求

机器学习

  • 在391,000多行经过整理的1845–1930年历史科学写作上训练、微调和部署机器学习模型。
  • 适用于领域特定的LLM微调、科学术语演变跟踪和NLP模型开发。

真实世界数据

  • 利用历史记载的科学发现、工程创新和技术预测作为研究和分析的真实世界数据。
  • 追踪科学家和发明家在突破性技术成为主流之前如何描述它们。

教育与研究

  • 用经过整理的历史科学写作支持教育技术和学术研究。
  • 适用于数字人文项目、科学史课程以及可访问科学论述的模型训练。

使用示例

查看元数据文档

sql SELECT TITLE, TEXT FROM SCIAM_CORPUS WHERE TYPE = metadata LIMIT 5;

按主题搜索(电力)

sql SELECT ISSUE, TITLE, AUTHOR FROM SCIAM_CORPUS WHERE TYPE = article AND TEXT ILIKE %electric% LIMIT 10;

按发明搜索(电话)

sql SELECT TITLE, AUTHOR, ISSUE FROM SCIAM_CORPUS WHERE TYPE = article AND TEXT ILIKE %telephone% LIMIT 10;

试用信息

  • 试用期限:7天。
  • 试用数据量:391,590行科普历史数据。
  • 过期时间:7天后过期。

数据提供商信息

  • 提供商名称:Devin Media Corp.
  • 提供商描述:Devin Media Corp.专注于为AI训练提供优质历史数据。我们提供全面、来源可追溯、经过偏见审核的1930年以前的出版物和档案,经过专业清理和结构化,适用于机器学习应用。我们的数据集涵盖医学、金融、时尚、法律和文化领域,包括一些社会中最负盛名和标志性的出版物。
  • 数据集特点
    • 1930年以前,经验证属于公共领域/无版权。
    • 经过专业OCR处理和深度清理。
    • 来源可追溯且经过偏见审核。
    • 格式化为JSONL,适用于AI。
    • 通过安全API交付(无文件下载)。

技术详情

  • 刷新频率:每年。
  • 地理覆盖范围:美国(按国家)。
  • 云区域可用性(AWS)
    • 加拿大(中部)
    • 美国东部(弗吉尼亚北部)
    • 美国东部(俄亥俄)
    • 美国西部(俄勒冈)
    • 另有9个区域。

法律条款

  • 条款类型:标准。

联系方式

  • 销售:hello@devinmediacorp.com
  • 支持:hello@devinmediacorp.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作