FACTORY
收藏Hugging Face2025-08-01 更新2025-08-02 收录
下载链接:
https://huggingface.co/datasets/facebook/FACTORY
下载链接
链接失效反馈官方服务:
资源简介:
FACTORY是一个大规模、人工验证的、用于长形式事实性评估的挑战性提示集。该数据集从维基百科的种子主题出发,使用大型语言模型生成多样化的提示,并通过人工标注确保每个提示都是事实寻求的、可回答的、明确的、非时效性的和安全的。数据集还特别包含了一个对当前最先进模型具有重大挑战性的“困难”部分。
提供机构:
AI at Meta
创建时间:
2025-07-24
原始信息汇总
数据集概述
基本信息
- 名称: FACTORY
- 许可证: CC-BY-NC-4.0
- 任务类别: 文本生成
- 语言: 英语
- 标签: 事实性
- 规模: 10K < n < 100K
数据集结构
- 配置名称: default
- 数据文件:
- all: prompts/all_prompts.jsonl
- hard: prompts/hard_prompts.jsonl
- fact_checking: fact_checking/human_annotations.jsonl
- 数据文件:
数据内容
- 概述: FACTORY是一个大规模、经过人工验证且具有挑战性的提示集。采用模型循环方法确保质量,并评估长文本生成。数据集基于维基百科种子主题,通过大型语言模型扩展为多样化提示,并通过人工标注确保提示具有事实性、可回答性、明确性、非时间敏感性和安全性。
- 难点分割: "hard"分割对当前最先进的大型语言模型具有显著挑战性,其输出中约40%的声明无法在线找到支持信息。
数据结构
- JSON Lines格式: 每行包含一个JSON对象,代表一个数据条目。
- 键值:
- question: 需要长文本回答的自然语言问题。
- url: 提供问题相关信息的资源URL。
- 键值:
人工标注结构
- JSON Lines格式: 每行包含一个JSON对象,代表一个标注条目。
- 键值:
- Claim N: 声明文本。
- Claim N Tag: 事实性标签("Factual", "NonFactual", "Inconclusive", "No Verifiable Fact")。
- Source Claim N: 支持/反驳声明的URL字符串。
- Claim N Snippet: 从源中复制的文本片段,提供直接证据。
- 键值:
参考文献
bibtex @article{chen2025factory, title={FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality}, author={Chen, Mingda and Li, Yang and Chen, Xilun and Williams, Adina and Ghosh, Gargi and Yih, Scott}, year={2025} }
搜集汇总
数据集介绍

构建方式
在长文本生成领域,确保事实准确性评估的有效性至关重要。FACTORY数据集采用模型在环方法构建,首先从维基百科选取种子主题,利用大型语言模型扩展为多样化提示集合,随后通过模型筛选机制过滤简单提示,保留高难度样本,并由人工标注者进一步优化,确保提示具备事实可查性、明确性和安全性。
特点
该数据集以其大规模、人工验证和高挑战性著称,特别包含一个“困难”子集,旨在突破现有模型的事实性评估边界。该子集输出的声明中约40%无法通过网络找到支持信息,显著提升了评估的严谨性。数据集结构清晰,每条记录包含自然语言问题及相关资源链接,支持深度事实核查研究。
使用方法
研究者可借助FACTORY评估长文本生成模型的事实准确性,通过解析JSON Lines格式数据,获取问题及其对应资源链接。人工标注的子集提供详细的事实性标签和证据来源,支持细粒度分析。数据集适用于检索增强生成系统的性能测试,推动长文本事实性评估方法的创新与发展。
背景与挑战
背景概述
长文本生成模型在自然语言处理领域的快速发展,催生了对生成内容事实准确性评估体系的迫切需求。2025年,Meta AI研究院的Mingda Chen等学者联合发布了FACTORY数据集,该数据集通过模型参与循环的构建方法,从维基百科种子主题扩展出大规模、经过人工验证的高难度提示集合。其核心研究在于解决长文本生成事实性评估的基准缺失问题,通过构建具备事实可验证性、明确性和安全性的提示语料,为衡量语言模型的事实准确性提供了重要基准,推动了可信人工智能系统的发展。
当前挑战
FACTORY数据集针对长文本生成事实性评估这一核心问题,主要挑战在于当前最先进语言模型在生成内容中仍存在约40%无法通过网络信息验证的声称,揭示了模型在事实准确性方面的显著缺陷。构建过程中的挑战体现在多维度质量控制:需通过模型参与循环机制筛选高难度提示,同时依赖人工标注确保每个提示具备事实可寻求性、可回答性和无歧义性,还要处理时间敏感性和安全性约束,这种多阶段过滤机制极大增加了数据集构建的复杂度和成本。
常用场景
经典使用场景
在自然语言处理领域,FACTORY数据集作为长文本事实性评估的基准工具,广泛应用于测试大语言模型生成内容的准确性。研究者通过该数据集构建的复杂提示词,系统评估模型在生成长篇幅回答时的事实一致性,尤其针对需要多步推理和深度知识整合的问题场景。该数据集通过人工验证机制确保评估的严谨性,为模型事实性研究提供了高质量的数据支撑。
解决学术问题
FACTORY数据集有效解决了长文本生成中事实性评估的标准化难题,为学术界提供了可量化的评估框架。通过构建具有挑战性的提示集合,该数据集能够精确检测模型产生无法验证声明的缺陷,推动了对大语言模型事实性机制的基础研究。其人工标注的事实性标签体系为建立可靠的事实核查方法论奠定了重要基础,显著提升了该研究领域的科学性和可重复性。
衍生相关工作
该数据集催生了多项重要研究工作,包括基于检索增强的事实性改进方法和自动化事实核查系统。研究者利用FACTORY的标注体系开发了新型事实性评估指标,推动了长文本生成质量评估范式的创新。相关成果已应用于模型预训练优化和实时事实验证系统的开发,形成了完整的技术演进链条。
以上内容由遇见数据集搜集并总结生成



