SynBio Dataset

Name: SynBio Dataset
Creator: 清华大学交叉信息研究院、上海期智研究院、上海人工智能实验室、北京理工大学
Published: 2025-05-24 00:46:24
License: 暂无描述

arXiv2025-05-24 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.18091v1

下载链接

链接失效反馈

官方服务：

资源简介：

SynBio数据集是一个合成的人物传记数据集，用于研究大型语言模型在混合数据集上的知识获取。数据集由多个属性组成，如出生日期、出生城市、大学、专业和雇主，每个属性值都是从预定义的域中随机独立采样的。通过将属性值嵌入到自然文本描述中，生成包含人物信息的句子。数据集的大小和具体条数在论文中未提及。该数据集被用于与大规模网络语料库混合，以研究模型大小和混合比例对知识获取的影响。数据集的创建过程是通过合成生成的方法，将属性值转换为自然文本描述。数据集的应用领域是大型语言模型的知识获取研究，旨在解决模型在混合数据集上如何有效获取知识的问题。

The SynBio dataset is a synthetic personal biographical dataset developed for research on knowledge acquisition of large language models (LLMs) on mixed datasets. The dataset comprises multiple attributes including date of birth, birth city, university, major, and employer. Each attribute value is randomly and independently sampled from a predefined domain. Sentences containing personal background information are generated by embedding these attribute values into natural language descriptions. The exact size and total number of samples in this dataset are not specified in the corresponding paper. This dataset is mixed with large-scale web corpora to study the effects of model scale and mixing ratio on knowledge acquisition. The dataset is constructed via a synthetic generation approach that converts pre-sampled attribute values into natural language textual statements. The application scope of the SynBio dataset lies in knowledge acquisition research for large language models, with the goal of solving the problem of how models can effectively acquire knowledge when trained on mixed datasets.

提供机构：

清华大学交叉信息研究院、上海期智研究院、上海人工智能实验室、北京理工大学

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

SynBio数据集通过合成生成，包含虚构人物的传记信息，每个个体由五个属性（出生日期、出生城市、大学、专业和雇主）构成。这些属性的值从预定义的领域中随机独立采样，并通过多样化的句子模板转换为自然文本描述。为确保多样性，每次模型遇到传记时，五个句子会被随机打乱，并为每个属性从五个可能的模板中重新选择。数据集的大小通过调整传记数量（如SynBio-N表示包含N个传记）进行控制，并与大规模网络语料库（如FineWeb-Edu或Pile）按混合比例r进行组合。

使用方法

SynBio数据集主要用于研究语言模型在混合数据训练中的知识获取行为。使用时，需将其与网络语料库按特定比例r混合，并训练不同规模的模型（如Pythia架构的14M至6.9B参数模型）。评估时，模型需根据提示（如“Gracie Tessa Howell的出生地是”）生成目标值（如“St. Louis, MO”），完全匹配则视为正确记忆。通过分析模型规模、混合比例与记忆准确性的关系，可揭示知识获取的相变现象。此外，该数据集支持两种优化策略：随机子采样（减少知识数据量以提高单事实频率）和紧凑知识混合（将知识重述为紧凑形式），以增强低混合比例下的知识获取效率。

背景与挑战

背景概述

SynBio Dataset是由Tsinghua University、Shanghai Qizhi Institute、Shanghai AI Laboratory和Beijing Institute of Technology的研究团队于2025年提出的一个合成传记数据集，旨在研究大型语言模型（LLMs）在混合数据训练中的知识获取行为。该数据集通过将高密度的知识数据（如合成传记）与网络爬取数据混合，探索模型在知识获取过程中出现的相变现象。SynBio Dataset的核心研究问题在于理解模型在混合数据训练中如何分配其有限的容量，以及这种分配如何影响知识获取的效率。该数据集对自然语言处理领域，特别是LLMs的训练和数据混合策略的研究，具有重要的影响力。

当前挑战

SynBio Dataset面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决的领域问题是理解LLMs在混合数据训练中的知识获取行为，特别是模型容量和混合比例对知识获取的影响。这一问题的挑战在于如何量化模型从高密度知识数据中获取的知识量，以及如何解释观察到的相变现象。2) 构建过程中的挑战：在数据集构建过程中，研究人员需要设计合成传记的生成方法，确保数据的多样性和一致性，同时控制知识的密度和曝光频率。此外，还需要设计有效的评估方法来准确测量模型对传记信息的记忆程度，这在数据混合的背景下尤为复杂。

常用场景

经典使用场景

SynBio数据集作为合成传记数据集，主要用于研究大型语言模型（LLMs）在混合数据训练中的知识获取行为。其经典使用场景包括探究模型在知识密集数据与网络爬取数据混合训练时的相变现象，即模型大小和混合比例对知识获取的临界影响。通过控制实验，研究者可以观察模型在特定条件下从几乎不记忆到快速记忆传记的突变过程。

解决学术问题

SynBio数据集解决了LLMs在混合数据训练中知识获取的非线性缩放问题。传统观点认为知识获取随模型规模线性增长，但该数据集揭示了在混合训练条件下存在的相变现象：当模型大小或混合比例低于临界值时，模型几乎无法记忆知识；而超过临界值后，记忆效率急剧提升。这一发现挑战了线性缩放定律，为理解模型容量分配机制提供了实证基础。

实际应用

在实际应用中，SynBio数据集的研究成果指导了LLMs预训练数据的优化策略。例如，当训练小型模型时，需避免过低的知识数据混合比例；而针对特定领域知识增强时，可通过子采样或知识压缩（CKM）提高单个事实的曝光频率。这些策略已成功应用于维基百科传记等真实知识数据的训练，在保持模型通用能力的同时显著提升知识获取效率。

数据集最近研究