five

FactualityPrompt|语言模型评估数据集|事实准确性数据集

收藏
github2022-06-01 更新2025-02-07 收录
语言模型评估
事实准确性
下载链接:
https://github.com/nayeon7lee/FactualityPrompt
下载链接
链接失效反馈
资源简介:
FactualityPrompt数据集用于评估大型语言模型生成文本输出的事实准确性。该数据集包含1.6万条英文样本,平均分为8000条真实提示和8000条虚假提示,是基于FEVER数据集改编而成的。研究深入探讨了两种类型的提示对大型语言模型事实准确性的影响,模拟了输入存在不准确信息的真实场景。

The FactualityPrompt dataset is designed to evaluate the factual accuracy of text outputs generated by large language models. The dataset contains 16,000 English samples, evenly divided into 8,000 real prompts and 8,000 false prompts, and is adapted from the FEVER dataset. The research delves into the impact of the two types of prompts on the factual accuracy of large language models, simulating real-world scenarios where input information may be inaccurate.
提供机构:
香港科技大学等
创建时间:
2022-06-01
原始信息汇总

FactualityPrompt 数据集概述

基本信息

数据集内容

  • fever_athene: 包含事实检查流程代码(Wiki文档检索器、Wiki句子选择器等),基于UKPLab/fever-2018-team-athene的代码。
  • prompts: 包含论文中使用的FactualityPrompt测试集。
  • src: 用于评估语言模型生成内容事实性的代码。

数据集使用

1. 设置

  • 安装依赖: pip install -r requirements.txt
  • 下载Wikipedia处理后的数据: kilt_knowledgesource.json
  • 创建DB文件: PYTHONPATH=fever_athene python3 fever_athene/scripts/build_db_kilt.py data/knowledgesource.json data/kilt_db.db

2. 运行评估脚本

  • 事实性指标(Hallucinated NE Error, Entailment Ratio): bash for PROMPT_TYPE in factual nonfactual do GEN_TO_EVALUATE_NAME=${PROMPT_TYPE}-CUSTOM-GEN-NAME.jsonl PYTHONPATH=. python src/evaluate_v3_final.py --prompt_type ${PROMPT_TYPE} --gen_path ${GEN_TO_EVALUATE_NAME} done

  • 重复性评估: bash for PROMPT_TYPE in factual nonfactual do GEN_TO_EVALUATE_NAME=${PROMPT_TYPE}-CUSTOM-GEN-NAME.jsonl python src/repetition.py ${GEN_TO_EVALUATE_NAME} --final done

  • 多样性评估: bash GEN_DIR=directory-containing-multi-seed-generation-files FILE_TEMPLATE=shared-string-between-multiple-seed-generation python src/distinct_n.py --gen_dir ${GEN_DIR} --file_template ${FILE_TEMPLATE} --number_of_seeds 10

相关资源

  • Megatron-LM: 用于复现论文中的Factual Nucleus Decoding和Sentence Completion Loss。
  • Huggingface: 复现论文工作的相关代码库位于factuality_enhanced_lm_hf
AI搜集汇总
数据集介绍
main_image_url
构建方式
FactualityPrompt数据集的构建基于开放文本生成领域的研究需求,旨在评估语言模型生成文本的事实性。该数据集通过整合来自UKPLab/fever-2018-team-athene的事实核查管道代码,并结合Wikipedia的知识源进行处理。具体步骤包括下载并处理Wikipedia的知识源文件,生成数据库文件,并配置相关脚本以支持后续的评估任务。
特点
FactualityPrompt数据集的特点在于其专注于语言模型生成文本的事实性评估。数据集包含两类提示(factual和nonfactual),并通过多种指标(如Hallucinated NE Error、Entailment Ratio、Repetition和Diversity)对生成文本进行量化分析。此外,数据集支持多种子生成文件的评估,能够全面反映语言模型在不同条件下的表现。
使用方法
使用FactualityPrompt数据集时,首先需安装依赖并配置环境。随后,通过运行评估脚本对生成文本进行事实性、重复性和多样性分析。用户可根据需求调整生成文件的种子数量,并通过命令行工具执行评估任务。此外,数据集还支持与Megatron-LM和Huggingface等主流语言模型框架的集成,便于用户复现研究结果或进行自定义实验。
背景与挑战
背景概述
FactualityPrompt数据集由NVIDIA的研究团队于2022年创建,主要研究人员包括Nayeon Lee、Wei Ping、Peng Xu等。该数据集的核心研究问题在于提升开放文本生成模型的事实性,旨在解决生成文本中常见的事实错误和虚构信息问题。通过引入事实性增强的语言模型,该研究为自然语言处理领域提供了新的评估框架和工具,显著推动了生成模型在事实准确性方面的进步。该数据集的研究成果已在相关领域产生了广泛影响,尤其是在文本生成和事实核查任务中。
当前挑战
FactualityPrompt数据集面临的挑战主要集中在两个方面。首先,开放文本生成模型在生成过程中容易产生事实性错误,即所谓的‘幻觉’问题,如何有效减少这些错误是该数据集的核心挑战之一。其次,在数据集的构建过程中,研究人员需要从大规模的维基百科数据中提取和处理相关信息,这一过程不仅耗时且复杂,还需要确保数据的准确性和一致性。此外,评估生成文本的事实性也面临技术难题,如何设计高效且准确的评估指标是该数据集构建中的另一大挑战。
常用场景
经典使用场景
FactualityPrompt数据集在自然语言处理领域中被广泛用于评估和提升语言模型在开放文本生成任务中的事实性。通过提供一系列测试提示和评估管道,该数据集帮助研究者量化模型生成文本的事实准确性,尤其是在生成包含命名实体和复杂语义结构的文本时。其经典使用场景包括对生成文本的事实性错误进行检测和纠正,从而提升模型的可靠性和实用性。
衍生相关工作
FactualityPrompt数据集衍生了多项经典研究工作,包括基于Megatron-LM和Huggingface框架的事实性增强语言模型训练方法。这些工作进一步扩展了数据集的应用范围,例如通过引入句子补全损失(Sentence Completion Loss)和核采样(Nucleus Sampling)技术,提升了模型在生成文本中的事实一致性和多样性。此外,该数据集还启发了更多关于语言模型事实性评估和优化的研究,推动了自然语言处理领域的技术进步。
数据集最近研究
最新研究方向
近年来,随着自然语言生成技术的快速发展,生成模型在开放域文本生成中的事实性问题逐渐成为研究热点。FactualityPrompt数据集正是在这一背景下应运而生,旨在通过提供一套完整的测试提示和评估流程,帮助研究者评估和改进语言模型在生成文本时的事实准确性。该数据集的核心研究方向集中在如何通过增强语言模型的事实性,减少生成文本中的幻觉错误(Hallucinated NE Error)和提高文本的蕴含比例(Entailment Ratio)。这些研究方向不仅推动了生成模型在新闻生成、知识问答等领域的应用,还为解决生成文本的可信度问题提供了新的思路。此外,FactualityPrompt与Megatron-LM和Huggingface等主流框架的集成,进一步促进了该领域的技术创新和实际应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录