five

The Condé Nast Heritage Collection

收藏
Snowflake2026-04-27 更新2026-04-29 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSXZGPW46HH
下载链接
链接失效反馈
官方服务:
资源简介:
Complete pre-1930 archive of four iconic Condé Nast publications, Vogue, Vanity Fair, House & Garden, and The New Yorker. **322,924 rows** of clean, structured text documenting American fashion, culture, design, and urban life from the 1890s through 1930. **What this data does for your model:**<br/>Reduces cultural hallucination by grounding your model in period‑appropriate social norms, fashion terminology, and urban sensibilities. Your model will learn authentic Jazz Age slang, Gilded Age consumer aspirations, and the witty, urbane voice of The New Yorker – not invented anachronisms. - *When asked about 1920s flapper fashion, the model will describe actual Vogue and Vanity Fair advertisements (e.g., dropped waistlines, cloche hats) instead of inventing neon mini‑skirts.* - *Teaches the model the evolution of advertising language, improving its ability to analyze historical marketing campaigns.* - *Trains the model on authentic satire and cultural commentary, reducing tone‑deaf outputs when asked about early 20th‑century social issues.* **What's inside:** - **Vogue (1892–1930):** Fashion, society, beauty, and the rise of modern style - **Vanity Fair (1913–1925):** Jazz Age consumer culture, advertising, luxury goods - **House & Garden (1901–1930):** Architecture, garden design, interior decoration - **The New Yorker (1925–1930):** Satire, humour, profiles, urban reporting, literature - **RAG‑ready:** Ground LLMs in primary source fashion, culture, and design text from 1892 –1930. Ideal for retrieval-augmented generation systems in fashion tech, cultural analytics, and digital humanities. **Perfect for:** - LLM fine-tuning on fashion and design history - Cultural history and digital humanities - Advertising and consumer behaviour research - Urban studies and Jazz Age America **Format:** Snowflake-native JSONL with columns: ISSUE, TITLE, AUTHOR, TYPE, TEXT. Fully cleaned, bias-audited, and ready for AI training. *From the Gilded Age to the Jazz Age, four iconic magazines, one comprehensive archive, now ready for AI.* <p><br/></p>
提供机构:
Devin Media Corp.
创建时间:
2026-04-27
原始信息汇总

数据集概述:The Condé Nast Heritage Collection

数据集简介

  • 名称: The Condé Nast Heritage Collection
  • 提供方: Devin Media Corp.
  • 数据量: 322,924 行
  • 描述: 涵盖 Gilded Age 至 Jazz Age(1890年代至1930年)的四本标志性 Condé Nast 出版物的完整预1930年档案,包括《Vogue》、《Vanity Fair》、《House & Garden》和《The New Yorker》。内容为经过清理、结构化处理的美国时尚、文化、设计和都市生活文本,适用于检索增强生成(RAG)系统、大语言模型微调及文化分析。

数据集包含内容

  • Vogue (1892–1930):时尚、社会、美容及现代风格崛起
  • Vanity Fair (1913–1925):爵士时代的消费文化、广告、奢侈品
  • House & Garden (1901–1930):建筑、园林设计、室内装饰
  • The New Yorker (1925–1930):讽刺、幽默、人物特写、都市报道、文学
  • RAG-ready:可用于将大语言模型(LLM)基于1892–1930年的时尚、文化和设计原始文本,适用于时尚科技、文化分析和数字人文领域。

适用场景

  • LLM 在时尚与设计历史上的微调
  • 文化历史与数字人文研究
  • 广告与消费者行为研究
  • 城市研究与爵士时代美国分析

数据格式

  • 格式: Snowflake 原生 JSONL
  • : ISSUE, TITLE, AUTHOR, TYPE, TEXT
  • 状态: 完全清理、经过偏见审计、适合 AI 训练

业务需求

  • 机器学习: 基于322,000+行精选时尚、文化、设计文本(1894–1930)进行模型训练、微调和部署,适用于领域特定LLM微调、时尚术语提取和文化自然语言处理。
  • 检索增强生成 (RAG): 构建 RAG 系统,检索并引用1892–1930年的原始时尚、文化、设计文本,适用于时尚科技、文化分析和数字人文。
  • 真实世界数据 (RWD): 利用历史记录的时尚趋势、广告、消费者行为和都市生活,作为研究和分析的真实世界数据。
  • 生命科学商业化: 支持时尚、设计和文化研究,提供1892–1930年记录美国风格、建筑和城市文化演变的历史文献。

数据字典

  • 表名: CN_CORPUS
  • :
    • ISSUE (Varchar): 期刊期号
    • TITLE (Varchar): 文章标题
    • AUTHOR (Varchar): 作者
    • TYPE (Varchar): 类型(如article)
    • TEXT (Varchar): 正文内容
    • INGESTION_DATE (Timestamp_NTZ): 摄取日期

使用示例

  • 查看元数据文档:SELECT TITLE, TEXT FROM CN_CORPUS WHERE TYPE = metadata LIMIT 5;
  • 搜索时尚内容:SELECT ISSUE, TITLE FROM CN_CORPUS WHERE TYPE = article AND TEXT ILIKE %fashion% OR TEXT ILIKE %style% OR TEXT ILIKE %dress% LIMIT 10;
  • 按类型统计行数:SELECT TYPE, COUNT(*) FROM CN_CORPUS GROUP BY TYPE;
  • 搜索《纽约客》(1925年后):SELECT TITLE, ISSUE FROM CN_CORPUS WHERE TYPE = article AND (ISSUE LIKE 1925% OR ISSUE LIKE 1926% OR ISSUE LIKE 1927% OR ISSUE LIKE 1928% OR ISSUE LIKE 1929% OR ISSUE LIKE 1930%) LIMIT 20;
  • 搜索建筑与设计:SELECT TITLE, ISSUE FROM CN_CORPUS WHERE TYPE = article AND (TEXT ILIKE %garden% OR TEXT ILIKE %architecture% OR TEXT ILIKE %house%) LIMIT 10;

定价与试用

  • 试用: 提供7天限时试用,可完整访问所有322,924行数据,用于测试数据质量和评估 AI 训练适用性。试用到期后需联系获取许可。
  • 定价: 页面显示“Get Unlock New Insights”,未提供具体价格。

数据更新与交付

  • 刷新频率: 每年
  • 交付方式: 安全共享(Secure share)

更多数据集(来自 Devin Media Corp.)

  • The Canadian Nurse Archive (Pre-1930)
  • Medical Repository Archive (1797–1824)
  • Medical and Surgical Reporter Archive (1858–1930)
  • JAMA Surgery Dataset 1911 to 1930
  • The Aeronautical Journal 1897-1930
  • American Journal of Orthodontics (1915-1930)

分类

  • AI & ML
  • Life Sciences Commercialization
  • Machine Learning
  • Real World Data (RWD)

联系信息

  • 销售/支持邮箱: hello@devinmediacorp.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作