five

TiC-CC

收藏
arXiv2025-04-03 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.02107v1
下载链接
链接失效反馈
官方服务:
资源简介:
TiC-CC是一个基于Common Crawl构建的时间分层数据集,涵盖了从2013年5月至2024年7月的114个月份的数据,总token数达到了2.9T。数据集通过特定的预处理流程创建,旨在用于时间连续的语言模型预训练研究,支持对各种连续学习策略进行评估。该数据集的特点是规模大、时间长、数据来源多样,可以为研究机构提供在时间连续学习方面的丰富资源。

TiC-CC is a time-stratified dataset constructed upon Common Crawl, covering 114 months of data spanning from May 2013 to July 2024 with a total token count of 2.9 trillion. Developed through a specialized preprocessing pipeline, this dataset is designed for time-continuous language model pre-training research, and supports the evaluation of various continual learning strategies. Characterized by its large scale, long temporal span, and diverse data sources, it provides abundant resources for research institutions to conduct studies on time-continuous learning.
提供机构:
华盛顿大学, 苹果公司
创建时间:
2025-04-03
搜集汇总
数据集介绍
main_image_url
构建方式
TiC-CC数据集构建于2013年5月至2024年7月期间的114个月份Common Crawl数据,采用时间分层策略进行处理。数据处理流程包括基于DataComp-LM的初始池构建、按月分组、独立应用启发式过滤器和模糊去重,并保留原始全局分片分配。为确保时间因果关系,避免使用依赖未来月份数据的操作,如跨月去重和分类器过滤。评估集从不同于训练集的全局分片中采样,以减少数据泄漏风险。
特点
TiC-CC作为目前最大的持续学习基准,包含2.9T训练token,覆盖10年网络数据演化。其核心特点包括:1) 时间分层设计模拟真实数据流,按月逐步释放训练数据;2) 通用性与领域特异性评估并存,除通用CC数据外,还包含维基百科、StackExchange和代码文档等垂直领域;3) 动态评估机制,通过时间分层验证集(TIC-CC-WIKI/NEWS)和下游任务(TIC-WIKI/STACKE/CODEDOCS)全面评估模型的时间适应能力。
使用方法
使用TiC-CC需遵循时间因果约束:1) 初始化阶段在首个月份(2013-05)进行标准预训练;2) 持续学习阶段按月顺序更新模型,可选择固定比例(α=1/2或1/t)重放历史数据;3) 评估时采用三类指标:时间分层困惑度(ppltoken/pplnoun)、领域特定答案生成(pplanswer)以及22项静态下游任务(CORE)。建议结合自回归学习率调度与数据重放策略,在220B-440B token预算下可获得接近全量重训练的性能。
背景与挑战
背景概述
TiC-CC(Time-Continual Common Crawl)是由Apple研究人员于2025年提出的一个大规模时间分层数据集,旨在支持大型语言模型(LLM)的持续预训练研究。该数据集基于114个月的Common Crawl数据(2013年5月至2024年7月),包含约2.9T的训练token,覆盖了网页、维基百科、StackExchange和代码文档等多种领域。TiC-CC的提出解决了现有持续学习基准在时间跨度和数据规模上的局限性,为研究LLM在新数据下的适应性和知识保留能力提供了重要工具。该数据集的核心研究问题是如何高效地更新LLM以应对时间分布偏移,同时避免对旧知识的遗忘。
当前挑战
TiC-CC面临的挑战主要包括两方面:1) 领域问题的挑战:该数据集旨在解决LLM在时间持续预训练中的知识更新与遗忘问题,但不同领域的数据随时间变化的速率不同(如新闻数据变化快,而数学文档变化较慢),这使得模型在平衡新旧知识学习上面临巨大挑战;2) 构建过程的挑战:在数据预处理阶段,需要确保时间因果性(避免未来信息泄露),同时处理大规模数据的去重和过滤问题。此外,评估体系的设计也极具挑战性,需要开发能够同时衡量模型对新数据适应能力和旧知识保留能力的动态评估方法。
常用场景
经典使用场景
TiC-CC数据集作为时间连续的大规模语言模型预训练基准,其经典使用场景包括评估和优化语言模型在时间维度上的持续学习能力。通过模拟现实世界中数据随时间演变的场景,研究者可以利用该数据集测试不同持续学习方法在模型更新和知识保留方面的表现。数据集覆盖了从2013年至2024年的114个月份的Common Crawl数据,为研究长期持续学习提供了丰富的时序数据支持。
衍生相关工作
TiC-CC数据集衍生了一系列相关研究工作,包括时间感知的语言模型训练方法、领域适应性持续学习策略以及高效数据回放算法的开发。基于该数据集的研究推动了如TiC-CLIP等多模态持续学习基准的建立,并启发了对语言模型时间泛化能力的深入探索。此外,数据集还促进了静态评估与动态评估相结合的新型评估框架的发展,为持续学习领域的标准化评测提供了重要基础。
数据集最近研究
最新研究方向
随着大语言模型(LLM)在历史网络数据上的训练日益普遍,其知识更新的时效性问题成为研究热点。TiC-CC数据集的提出为时间连续性预训练提供了前所未有的规模支持,包含114个月的Common Crawl数据,总量达2.9T tokens。该数据集的最新研究方向聚焦于探索高效的知识更新机制,通过自回归元调度与固定比例旧数据回放的组合策略,在通用网络数据上实现了与全量重新训练相当的模型性能,同时显著降低2.6倍计算成本。研究还揭示了领域依赖性遗忘现象:在StackOverflow等快速演变的领域,旧数据回放可能损害模型表现,而在Wikipedia等稳定领域则效果显著。这些发现为LLM的持续学习提供了重要启示,推动了计算效率与知识保鲜的平衡研究。
相关研究论文
  • 1
    TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining华盛顿大学, 苹果公司 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作