Scientific American Archive (1846–1930)
收藏Snowflake2026-04-14 更新2026-04-15 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW3VKQ
下载链接
链接失效反馈官方服务:
资源简介:
Complete pre-1930 archive of Scientific American, the oldest continuously published magazine in the United States. **391,590 rows** of clean, structured text documenting nearly a century of scientific discovery, invention, and popular science writing.
**What this data does for your model:**
- Your model learns authentic 19th‑ and early 20th‑century scientific writing from the oldest continuously published magazine in the United States.
- Your model retrieves original reports on Edison's light bulb, the telephone, the automobile, the airplane, and the technological breakthroughs that shaped the modern world.
- Your model trains on the language of popular science, engineering, chemistry, physics, biology, and medicine written for the general reader.
- Your model understands the evolution of scientific communication from the industrial age through the dawn of modern physics and aviation.
**What's inside:**
- Original reports on Edison's light bulb, the telephone, the automobile, and the airplane
- Early discussions of electricity, radio, wireless communication, and X‑rays
- Engineering breakthroughs in bridges, railroads, and skyscrapers
- Medical discoveries including anesthesia, antiseptic surgery, and vaccines
- Patents, inventions, and technological forecasting
**Perfect for:**
- LLM fine‑tuning on historical scientific text
- NLP research on the evolution of scientific language
- Digital humanities and history of science
- Education technology and curriculum development
**Format:** Snowflake-native JSONL with columns: ISSUE, TITLE, AUTHOR, TYPE, TEXT. Fully cleaned, bias‑audited, and ready for AI training.
<p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-04-14
原始信息汇总
Scientific American Archive (1846–1930)
概述
- 数据集名称:Scientific American Archive (1846–1930)
- 提供商:Devin Media Corp.
- 描述:完整的1930年以前《科学美国人》档案,这是美国历史最悠久的连续出版杂志。包含391,590行经过清理、结构化的文本,记录了近一个世纪的科学发现、发明和科普写作。
- 数据格式:Snowflake原生JSONL格式,包含列:ISSUE, TITLE, AUTHOR, TYPE, TEXT。数据经过完全清理、偏见审核,适用于AI训练。
- 覆盖时间:1846年至1930年。
- 数据量:391,590行。
内容详情
包含内容
- 关于爱迪生电灯、电话、汽车和飞机的原始报道。
- 关于电力、无线电和无线通信的早期讨论。
- 桥梁、铁路和摩天大楼的工程突破。
- 包括麻醉、抗菌手术和疫苗在内的医学发现。
- 面向普通读者的化学、物理、生物学和天文学内容。
- 专利、发明和技术预测。
适用场景
- 历史科学文本的LLM微调。
- 科学语言演变的NLP研究。
- 数字人文和科学史研究。
- 教育技术和课程开发。
- 科普写作的模型训练。
数据结构
表名
SCIAM_CORPUS
列定义
ISSUE(Varchar)TITLE(Varchar)AUTHOR(Varchar)TYPE(Varchar)TEXT(Varchar)INGESTION_DATE(Timestamp_NTZ)
业务需求
机器学习
- 在391,000多行经过整理的1845–1930年历史科学写作上训练、微调和部署机器学习模型。
- 适用于领域特定的LLM微调、科学术语演变跟踪和NLP模型开发。
真实世界数据
- 利用历史记载的科学发现、工程创新和技术预测作为研究和分析的真实世界数据。
- 追踪科学家和发明家在突破性技术成为主流之前如何描述它们。
教育与研究
- 用经过整理的历史科学写作支持教育技术和学术研究。
- 适用于数字人文项目、科学史课程以及可访问科学论述的模型训练。
使用示例
查看元数据文档
sql SELECT TITLE, TEXT FROM SCIAM_CORPUS WHERE TYPE = metadata LIMIT 5;
按主题搜索(电力)
sql SELECT ISSUE, TITLE, AUTHOR FROM SCIAM_CORPUS WHERE TYPE = article AND TEXT ILIKE %electric% LIMIT 10;
按发明搜索(电话)
sql SELECT TITLE, AUTHOR, ISSUE FROM SCIAM_CORPUS WHERE TYPE = article AND TEXT ILIKE %telephone% LIMIT 10;
试用信息
- 试用期限:7天。
- 试用数据量:391,590行科普历史数据。
- 过期时间:7天后过期。
数据提供商信息
- 提供商名称:Devin Media Corp.
- 提供商描述:Devin Media Corp.专注于为AI训练提供优质历史数据。我们提供全面、来源可追溯、经过偏见审核的1930年以前的出版物和档案,经过专业清理和结构化,适用于机器学习应用。我们的数据集涵盖医学、金融、时尚、法律和文化领域,包括一些社会中最负盛名和标志性的出版物。
- 数据集特点:
- 1930年以前,经验证属于公共领域/无版权。
- 经过专业OCR处理和深度清理。
- 来源可追溯且经过偏见审核。
- 格式化为JSONL,适用于AI。
- 通过安全API交付(无文件下载)。
技术详情
- 刷新频率:每年。
- 地理覆盖范围:美国(按国家)。
- 云区域可用性(AWS):
- 加拿大(中部)
- 美国东部(弗吉尼亚北部)
- 美国东部(俄亥俄)
- 美国西部(俄勒冈)
- 另有9个区域。
法律条款
- 条款类型:标准。
联系方式
- 销售:hello@devinmediacorp.com
- 支持:hello@devinmediacorp.com



