five

Genetics & Heredity Medical AI Archive (pre‑1930)

收藏
Snowflake2026-05-12 更新2026-05-16 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW4I8O
下载链接
链接失效反馈
官方服务:
资源简介:
This bundle contains the complete pre‑1930 runs of the journals that built modern life sciences; genetics, heredity, biochemistry, bacteriology, immunology, developmental biology, and human biology. <p><br/></p> **Included publications:** <p><br/></p> - Genetics (1916‑1930) – The first English‑language journal devoted exclusively to heredity. Morgan's fly lab, Muller's mutation work, Sturtevant's mapping. - Hereditas (1920‑1930) – Swedish journal of genetics. Mendelian inheritance, population genetics, Scandinavian research. - Journal of Heredity (1910‑1930) – Eugenics‑era heredity, animal and plant breeding, pedigree studies. (Bias audit included.) - Journal of Genetic Psychology (1891‑1930) – Developmental psychology, nature‑nurture debates, child behavior. - Human Biology (1929‑1930) – Early physical anthropology, population studies, biometrics, racial science. (Bias audit included.) - Journal of Biological Chemistry (1905‑1930) – Founding research on enzymes, metabolism, proteins, and biochemical pathways. - Biochemical Journal (1906‑1930) – UK‑published biochemistry. Metabolic research, nutrition studies, enzyme chemistry. - Development Genes & Evolution (1889‑1930) – Developmental biology, embryology, evolutionary morphology. Originally *Archiv für Entwicklungsmechanik*. - Quarterly Review of Biology (1926‑1930) – Synthesis of theoretical biology, evolution, ecology, and genetics. - Australian Journal of Immunology & Cell Biology (1924‑1930) – Early immunology, cell biology, Australian research perspective. - Journal of Bacteriology (1916‑1930) – Foundational bacteriology, microbial genetics, infectious disease research. - Biological Bulletin (1899‑1930) – Marine biology, zoology, general physiology, Woods Hole research. <p><br/></p> **Use this dataset to:** <p><br/></p> - Train bio‑AI models on the complete early literature of genetics, biochemistry, and bacteriology - Extract entities: genes, enzymes, bacterial strains, metabolic pathways, developmental stages - Study the pre‑DNA era of Mendelian genetics and population thinking - Support research in computational biology, drug discovery, agricultural AI, and evolutionary modeling - Analyze the history of eugenics, racial science, and their terminology (with full bias audit documentation) <p><br/></p> All content is professionally OCR‑cleaned, structured as JSONL, and bias‑audited with historical context notices. 100% public domain (pre‑1930). Snowflake‑optimized. <p><br/></p> Total rows: 204,045 Time period: 1889‑1930 Journals: 19 titles covering genetics, heredity, biochemistry, bacteriology, immunology, developmental biology, human biology, and genetic psychology. <p><br/></p> **⚠️ Historical Content Notice:** This bundle includes early 20th‑century heredity research from the eugenics era, particularly in the *Journal of Heredity* and *Human Biology*. These publications contain racial, ableist, and classist terminology and assumptions. Devin Media Corp provides this content for historical AI training only and does not endorse any of the scientific or social claims made in these historical publications. <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-05-12
原始信息汇总

数据集概述:Genetics & Heredity Medical AI Archive (pre‑1930)

该数据集由 Devin Media Corp. 提供,是一个经过专业清洗、结构化的历史遗传学与遗传医学文献档案,适用于AI训练和研究。

核心内容

  • 时间跨度:1889–1930年。
  • 数据规模:总共 204,045 行(记录)。
  • 收录期刊19种,涵盖遗传学、遗传学、生物化学、细菌学、免疫学、发育生物学、人类生物学和遗传心理学等领域的早期重要期刊。
  • 数据格式:JSONL,已针对Snowflake优化,全部为公共领域内容(pre‑1930)。
  • 内容特点
    • 包含奠定现代生命科学基础的早期文献,如《Genetics》(1916–1930)、《Journal of Heredity》(1910–1930)、《Journal of Biological Chemistry》(1905–1930)等。
    • 文献经过专业OCR清洗和文本校对。
    • 已进行历史偏见审计,并附有历史背景说明(尤其针对优生学时期的内容)。

应用场景

  • 模型开发:用于训练领域专用的大语言模型(LLM),支持预训练和微调。
  • 实体识别:提取基因名称、性状、突变、代谢途径等实体,适用于命名实体识别(NER)任务。
  • 文本摘要:利用长文本和原始标题形成摘要对,训练摘要生成模型。
  • 科学本体学习:分析遗传学术语(如gene、allele、phenotype)的演变过程。

数据结构与预览

  • 表名GENETICS_HEREDITY_ARCHIVE
  • 主要字段
    • ISSUE(Varchar):期次标识
    • TITLE(Varchar):文章标题
    • AUTHOR(Varchar):作者
    • TYPE(Varchar):文章类型(如article)
    • TEXT(Varchar):全文内容
    • INGESTION_DATE(Timestamp_NTZ):数据入库时间
  • 数据预览示例
    • 文章标题:“the forbdiden ground of the inheritance of acquired characters and this sketch”
    • 文本节选展示遗传学、生物化学、发育心理学等领域的早期研究内容。

使用示例(SQL查询)

  • 查看前10条记录:SELECT * FROM GENETICS_HEREDITY_ARCHIVE LIMIT 10;
  • 查找含“mutation”的文章:SELECT * FROM GENETICS_HEREDITY_ARCHIVE WHERE TEXT ILIKE %mutation%;
  • 按期刊和年份统计文章数:使用 SPLIT_PARTGROUP BY 进行分组统计。

定价与交付

  • 定价信息未明确列出(页面显示“Get”/“Unlock New Insights”)。
  • 交付方式:Secure Share(安全共享)。
  • 刷新频率:每年一次。
  • 法律条款:标准条款。

数据提供方

  • 名称:Devin Media Corp.
  • 联系方式:hello@devinmediacorp.com(销售与支持共用)
  • 专长:提供高质量的历史数据集,涵盖医学、金融、时尚、法律、文化等领域,所有数据均经过专业OCR清洗、来源追踪和偏见审计,以JSONL格式交付。

关键说明

  • ⚠️ 历史内容说明:该档案包含20世纪早期优生学时期的遗传学研究,尤其在《Journal of Heredity》和《Human Biology》中,可能存在种族歧视、能力歧视和阶级歧视的术语和假设。提供方声明仅用于历史AI训练,不支持其中的任何科学或社会主张。
  • 数据类别:AI & ML。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作