SynthBio

Name: SynthBio
Creator: 谷歌研究院
Published: 2022-01-13 03:17:08
License: 暂无描述

arXiv2022-01-13 更新2024-06-21 收录

下载链接：

https://storage.googleapis.com/gem-benchmark/SynthBio.json

下载链接

链接失效反馈

官方服务：

资源简介：

SynthBio是由谷歌研究院开发的一个新的评估数据集，用于WikiBio。该数据集包含2249个虚构人物的属性列表，每个列表平均对应2.1个传记，总计4692个传记。SynthBio通过合成管道创建，旨在展示如何构建具有与现实世界分布不同属性的数据集。数据集包括常见和不常见的职业样本，并设计为在性别和国籍方面比原始WikiBio数据集更平衡。人类评估显示，SynthBio中的传记与其相应的属性列表更为忠实，同时与原始数据集中的传记一样流畅。此外，训练于WikiBio的模型在SynthBio上的表现不佳，表明SynthBio可能作为评估模型在整个目标分布上执行能力的挑战集，以及在预训练期间不依赖真实世界知识记忆生成有根据文本的能力。

SynthBio is a novel evaluation dataset developed by Google Research for WikiBio. It contains attribute lists for 2,249 fictional individuals, with an average of 2.1 biographies per list, totaling 4,692 biographies. Created via a synthetic pipeline, SynthBio is designed to demonstrate how to construct datasets with attribute distributions distinct from those of the real world. The dataset includes samples of both common and uncommon occupations, and is engineered to be more balanced in terms of gender and nationality than the original WikiBio dataset. Human evaluations show that biographies in SynthBio are more faithful to their corresponding attribute lists, while being as fluent as those in the original dataset. Furthermore, models trained on WikiBio perform poorly on SynthBio, suggesting that SynthBio can serve as a challenging set for evaluating models' ability to perform across the full target distribution, as well as their capacity to generate grounded text without relying on real-world knowledge memorized during pre-training.

提供机构：

谷歌研究院

创建时间：

2021-11-12

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，高质量基准数据集的稀缺性促使研究者探索新型构建方法。SynthBio的构建采用了一种创新的人机协作流程，首先利用大规模语言模型生成虚构人物的结构化属性列表作为初始草稿，随后通过人工标注者对属性列表进行修订，确保其事实合理性、格式规范性与领域适配性。在此基础上，模型依据修订后的属性生成传记文本初稿，再由标注者针对文本的忠实性、流畅度及格式进行精细化编辑与质量控制。这一流程将数据集创作从零开始撰写转变为高效编辑任务，显著提升了数据质量与构建效率。

使用方法

SynthBio主要作为评估数据集，用于测试在WikiBio上训练的模型在结构到文本任务上的泛化性能。研究者可将该数据集作为独立的测试集，通过自动评估指标（如PARENT、BLEURT和ROUGE）与人工评估（覆盖度、忠实度与流畅度）相结合的方式，全面衡量模型在合成数据上的表现。由于数据集经过人工修订且包含多参考传记，它尤其适用于检验模型在避免幻觉生成、处理多样化输入分布方面的能力。此外，其均衡的属性分布也为分析模型在不同人口统计学特征上的性能差异提供了可靠基础。

背景与挑战

背景概述

在自然语言生成领域，高质量基准数据集的稀缺性长期制约着研究进展。SynthBio数据集于2021年由Google Research与宾夕法尼亚大学的研究团队联合创建，旨在应对结构化数据到文本生成任务中的评估难题。该数据集以虚构人物传记为核心，通过人机协作的流程生成，显著提升了数据的忠实度与平衡性。其设计不仅规避了传统数据集中常见的噪声与偏见问题，更为模型评估提供了不受现实知识记忆干扰的纯净环境，对推动自然语言生成技术的可靠性与公平性具有深远影响。

当前挑战

SynthBio致力于解决结构化数据到文本生成任务中的评估挑战，特别是模型在生成过程中对训练数据记忆的依赖问题，以及真实数据集中普遍存在的性别、国籍等分布偏差。在构建过程中，研究团队面临多重挑战：首先，确保语言模型生成的虚构属性列表在事实层面具备合理性，同时维持文本的流畅性与多样性；其次，通过人工修订环节消除生成文本中的隐性偏见与不一致性，例如代词与性别标识的匹配问题；此外，平衡不同职业类型与地域属性的代表性，避免合成数据引入新的分布扭曲，亦是构建过程中的关键难点。

常用场景

经典使用场景

在自然语言生成领域，SynthBio数据集作为WikiBio的补充评估集，其经典使用场景在于为结构到文本生成任务提供无噪声、高保真度的基准测试。该数据集通过合成虚构人物的属性列表与传记，有效避免了模型因预训练数据记忆而产生的性能虚高现象，从而精准评估模型在生成忠实文本方面的真实能力。

解决学术问题

SynthBio主要解决了结构到文本任务中数据噪声与偏见问题。传统数据集如WikiBio存在信息不一致、性别与国籍分布失衡等缺陷，而SynthBio通过人机协作的合成方法，构建了在性别、国籍及职业类型上更为平衡的评估数据，为研究模型在多样化分布下的泛化性能提供了可靠工具，推动了自然语言生成评估方法的科学化进程。

实际应用

在实际应用中，SynthBio可作为高质量微调数据集，用于提升生成模型的忠实性与公平性。其合成数据能够模拟长尾分布中的罕见语言现象，帮助开发者在医疗、教育等敏感领域构建更可靠的文本生成系统，同时为评估模型在消除社会偏见方面的进展提供实证基础。

数据集最近研究