five

SynthBio

收藏
arXiv2022-01-13 更新2024-06-21 收录
下载链接:
https://storage.googleapis.com/gem-benchmark/SynthBio.json
下载链接
链接失效反馈
官方服务:
资源简介:
SynthBio是由谷歌研究院开发的一个新的评估数据集,用于WikiBio。该数据集包含2249个虚构人物的属性列表,每个列表平均对应2.1个传记,总计4692个传记。SynthBio通过合成管道创建,旨在展示如何构建具有与现实世界分布不同属性的数据集。数据集包括常见和不常见的职业样本,并设计为在性别和国籍方面比原始WikiBio数据集更平衡。人类评估显示,SynthBio中的传记与其相应的属性列表更为忠实,同时与原始数据集中的传记一样流畅。此外,训练于WikiBio的模型在SynthBio上的表现不佳,表明SynthBio可能作为评估模型在整个目标分布上执行能力的挑战集,以及在预训练期间不依赖真实世界知识记忆生成有根据文本的能力。

SynthBio is a novel evaluation dataset developed by Google Research for WikiBio. It contains attribute lists for 2,249 fictional individuals, with an average of 2.1 biographies per list, totaling 4,692 biographies. Created via a synthetic pipeline, SynthBio is designed to demonstrate how to construct datasets with attribute distributions distinct from those of the real world. The dataset includes samples of both common and uncommon occupations, and is engineered to be more balanced in terms of gender and nationality than the original WikiBio dataset. Human evaluations show that biographies in SynthBio are more faithful to their corresponding attribute lists, while being as fluent as those in the original dataset. Furthermore, models trained on WikiBio perform poorly on SynthBio, suggesting that SynthBio can serve as a challenging set for evaluating models' ability to perform across the full target distribution, as well as their capacity to generate grounded text without relying on real-world knowledge memorized during pre-training.
提供机构:
谷歌研究院
创建时间:
2021-11-12
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言生成领域,高质量基准数据集的稀缺性促使研究者探索新型构建方法。SynthBio的构建采用了一种创新的人机协作流程,首先利用大规模语言模型生成虚构人物的结构化属性列表作为初始草稿,随后通过人工标注者对属性列表进行修订,确保其事实合理性、格式规范性与领域适配性。在此基础上,模型依据修订后的属性生成传记文本初稿,再由标注者针对文本的忠实性、流畅度及格式进行精细化编辑与质量控制。这一流程将数据集创作从零开始撰写转变为高效编辑任务,显著提升了数据质量与构建效率。
使用方法
SynthBio主要作为评估数据集,用于测试在WikiBio上训练的模型在结构到文本任务上的泛化性能。研究者可将该数据集作为独立的测试集,通过自动评估指标(如PARENT、BLEURT和ROUGE)与人工评估(覆盖度、忠实度与流畅度)相结合的方式,全面衡量模型在合成数据上的表现。由于数据集经过人工修订且包含多参考传记,它尤其适用于检验模型在避免幻觉生成、处理多样化输入分布方面的能力。此外,其均衡的属性分布也为分析模型在不同人口统计学特征上的性能差异提供了可靠基础。
背景与挑战
背景概述
在自然语言生成领域,高质量基准数据集的稀缺性长期制约着研究进展。SynthBio数据集于2021年由Google Research与宾夕法尼亚大学的研究团队联合创建,旨在应对结构化数据到文本生成任务中的评估难题。该数据集以虚构人物传记为核心,通过人机协作的流程生成,显著提升了数据的忠实度与平衡性。其设计不仅规避了传统数据集中常见的噪声与偏见问题,更为模型评估提供了不受现实知识记忆干扰的纯净环境,对推动自然语言生成技术的可靠性与公平性具有深远影响。
当前挑战
SynthBio致力于解决结构化数据到文本生成任务中的评估挑战,特别是模型在生成过程中对训练数据记忆的依赖问题,以及真实数据集中普遍存在的性别、国籍等分布偏差。在构建过程中,研究团队面临多重挑战:首先,确保语言模型生成的虚构属性列表在事实层面具备合理性,同时维持文本的流畅性与多样性;其次,通过人工修订环节消除生成文本中的隐性偏见与不一致性,例如代词与性别标识的匹配问题;此外,平衡不同职业类型与地域属性的代表性,避免合成数据引入新的分布扭曲,亦是构建过程中的关键难点。
常用场景
经典使用场景
在自然语言生成领域,SynthBio数据集作为WikiBio的补充评估集,其经典使用场景在于为结构到文本生成任务提供无噪声、高保真度的基准测试。该数据集通过合成虚构人物的属性列表与传记,有效避免了模型因预训练数据记忆而产生的性能虚高现象,从而精准评估模型在生成忠实文本方面的真实能力。
解决学术问题
SynthBio主要解决了结构到文本任务中数据噪声与偏见问题。传统数据集如WikiBio存在信息不一致、性别与国籍分布失衡等缺陷,而SynthBio通过人机协作的合成方法,构建了在性别、国籍及职业类型上更为平衡的评估数据,为研究模型在多样化分布下的泛化性能提供了可靠工具,推动了自然语言生成评估方法的科学化进程。
实际应用
在实际应用中,SynthBio可作为高质量微调数据集,用于提升生成模型的忠实性与公平性。其合成数据能够模拟长尾分布中的罕见语言现象,帮助开发者在医疗、教育等敏感领域构建更可靠的文本生成系统,同时为评估模型在消除社会偏见方面的进展提供实证基础。
数据集最近研究
最新研究方向
在自然语言生成领域,SynthBio数据集作为人机协作数据构建的典范,正推动着结构到文本任务的前沿探索。其核心研究方向聚焦于利用大型语言模型生成合成数据,并通过人工编辑优化数据质量,以构建更平衡、低噪声的评估基准。当前研究热点包括探索合成数据在减少模型记忆偏差、提升生成文本忠实度方面的潜力,以及如何通过可控的数据分布设计来评估模型在多样化人口属性(如性别、国籍)上的泛化能力。这一方向对推动公平、可解释的自然语言生成系统具有重要意义,为构建更包容、可靠的评估框架提供了新范式。
相关研究论文
  • 1
    SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets谷歌研究院 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作