five

DefAn

收藏
arXiv2024-06-13 更新2024-06-21 收录
下载链接:
https://github.com/ashikiut/DefAn
下载链接
链接失效反馈
官方服务:
资源简介:
DefAn数据集由沙特阿拉伯国王法赫德石油与矿业大学信息计算系创建,旨在评估大型语言模型(LLMs)在处理和生成文本时的幻觉现象。该数据集包含75,000个样本,覆盖八个知识领域,包括体育、澳大利亚人口普查、诺贝尔奖、娱乐、世界组织、QS排名、会议地点和数学。数据集分为公开和隐藏两部分,用于测试和评估LLM的性能。创建过程中,数据集通过从官方文档和网站收集信息,并经过多次改写以确保问题和答案的准确性和一致性。DefAn数据集的应用领域主要集中在提高LLMs的准确性和可靠性,特别是在需要高精度文本生成的场景,如新闻报道、学术写作和法律文档。

The DefAn dataset was developed by the Department of Information and Computing, King Fahd University of Petroleum and Minerals, Saudi Arabia, with the aim of evaluating the hallucination phenomenon of Large Language Models (LLMs) during text processing and generation. The dataset consists of 75,000 samples spanning eight knowledge domains, including sports, Australian Census, Nobel Prizes, entertainment, international organizations, QS Rankings, conference venues, and mathematics. It is divided into public and hidden subsets for testing and assessing LLM performance. During the development process, the dataset was constructed by collecting information from official documents and websites, followed by multiple rounds of revision to ensure the accuracy and consistency of its questions and answers. The primary application areas of the DefAn dataset are focused on enhancing the accuracy and reliability of LLMs, especially in high-precision text generation scenarios such as news reporting, academic writing, and legal documentation.
提供机构:
沙特阿拉伯国王法赫德石油与矿业大学信息计算系
创建时间:
2024-06-13
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型幻觉评估领域,DefAn数据集的构建体现了严谨的学术方法。其构建过程始于从体育、人口普查、诺贝尔奖等八个知识领域的官方来源系统性地收集信息,确保数据源的权威性与时效性。随后,研究团队基于这些结构化事实,精心设计出要求模型给出明确、简洁答案的提示词。为了深入评估模型的一致性,每个原始问题均通过大模型辅助生成了15个语义等价的复述版本,并经由人工专家审核以保证复述的准确性。最终,超过七万五千条样本被划分为公开测试集与隐藏基准集,这种划分有效防止了模型因熟悉数据而产生性能虚高,保障了评估的公正性与挑战性。
特点
DefAn数据集的核心特点在于其针对性与评估维度的综合性。该数据集专门设计用于诱发大型语言模型的生成能力,并系统评估其在事实性、忠实性与一致性三个关键维度的表现。其提示词均要求模型输出诸如具体数字、日期、人名或地点等确定性答案,这种设计显著提升了评估的颗粒度与精确性。数据集覆盖了从体育赛事到学术排名等多样化的知识领域,能够全面揭示模型在不同类型查询下的性能差异。尤为重要的是,其内置的自动化评估方案,无需依赖耗时的人工标注或可能存在偏差的LLM评判,为幻觉检测提供了一种高效且可靠的基准框架。
使用方法
该数据集为评估大型语言模型的可靠性提供了标准化的流程。研究者或开发者可通过访问其公开数据集部分,向待测模型输入设计好的提示词,并收集模型生成的答案。评估时,需将模型的输出与数据集提供的标准答案进行比对,以计算事实矛盾幻觉率;同时,需检验输出是否严格遵循了提示词对答案格式与内容的要求,从而计算提示失准幻觉率。对于一致性评估,则需分析模型对同一问题多个复述版本所给出答案的同一性。隐藏数据集则作为最终的性能基准,用于在模型未见过的情况下进行盲测,以确保评估结果的泛化能力与公正性。
背景与挑战
背景概述
在生成式人工智能迅猛发展的背景下,大型语言模型(LLMs)虽展现出卓越的文本生成能力,但其固有的幻觉问题——即生成与事实相悖、偏离提示或前后不一致的内容——严重威胁着模型的可信度与应用安全。为系统评估这一挑战,阿卜杜勒阿齐兹国王石油与矿业大学(KFUPM)的研究团队于2024年推出了DefAn数据集。该数据集包含超过75,000条提示,覆盖体育、人口普查、诺贝尔奖、娱乐、国际组织、QS排名、学术会议与数学等八大领域,旨在通过要求模型生成确定性的简短答案,全面衡量LLMs在事实准确性、提示忠实度与响应一致性三个维度的表现。DefAn的构建标志着LLM幻觉评估从传统选择题模式向生成式、细粒度评测的重要转变,为相关领域提供了规模庞大且易于自动化评估的基准工具。
当前挑战
DefAn数据集致力于解决LLM幻觉评估这一核心领域问题,其挑战主要体现在两方面:在领域问题层面,现有评估基准多局限于事实性或提示对齐的单一维度,且常依赖带有偏见的人工或LLM评判,难以全面、客观地量化模型在多轮生成中的综合幻觉水平;在构建过程中,研究团队面临数据规模与质量的双重挑战,需从多样化的官方来源精确采集信息,并设计能够明确引发确定性答案的提示,同时通过大量人工校验确保数万条提示的语义一致性,以避免评估时的模糊性。此外,数据集的领域覆盖虽广,但在科学、医学等专业领域的扩展仍受限于专家标注的高成本与提示设计的复杂性。
常用场景
经典使用场景
在大型语言模型(LLM)的评估领域,DefAn数据集被广泛用于系统性地检测和量化模型产生的幻觉现象。该数据集通过涵盖体育、人口普查、诺贝尔奖、娱乐、国际组织、QS排名、学术会议和数学等八个知识领域的超过75,000个提示,要求模型生成明确、简洁的答案,从而精准评估模型在事实准确性、提示忠实度和响应一致性三个维度的表现。研究者通常利用这一数据集对GPT-3.5、LLaMA系列、Gemini等主流模型进行横向比较,揭示不同模型在生成数字、日期、名称等特定信息时的幻觉倾向,为模型优化提供基准参考。
衍生相关工作
DefAn数据集的发布催生了一系列围绕LLM幻觉检测与缓解的衍生研究。基于其多维度评估框架,后续工作扩展了幻觉分类的粒度,例如结合语义一致性检查或逻辑验证方法,提升检测精度。部分研究利用该数据集的领域划分,开发了针对数值或日期幻觉的专用校正算法。同时,数据集的隐藏测试集设计启发了更多抗过拟合的基准构建方法,促进了评估协议的标准化。这些工作共同推动了幻觉评估从单一事实性检测向综合性、可解释性分析演进,为构建更可靠的LLM生态系统奠定了基础。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)幻觉评估领域,DefAn数据集作为一项前沿研究工具,聚焦于解决模型生成内容中存在的真实性、忠实性与一致性问题。该数据集通过涵盖体育、人口普查、诺贝尔奖等八个知识领域的超过75,000条提示,系统化地量化了LLMs在生成确定性答案时的幻觉现象。研究揭示,模型在涉及具体数值或日期的查询中表现出较高的幻觉率,而在非数值类信息如人名、地点等方面则相对稳健。这一发现推动了针对LLMs可信度优化的研究方向,特别是在增强模型对精确数据的处理能力与提示对齐机制方面。DefAn的公开与隐藏数据集设计,为学术界提供了可扩展的基准测试框架,促进了幻觉检测自动化评估方法的发展,并对LLMs在医疗、法律等高风险领域的应用安全产生了深远影响。
相关研究论文
  • 1
    DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation沙特阿拉伯国王法赫德石油与矿业大学信息计算系 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作