osunlp/AttrScore

Name: osunlp/AttrScore
Creator: osunlp
Published: 2023-06-29 01:56:48
License: 暂无描述

Hugging Face2023-06-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/osunlp/AttrScore

下载链接

链接失效反馈

官方服务：

资源简介：

AttrScore数据集用于评估大型语言模型（LLM）的归因能力，即验证生成的声明是否完全由引用的参考资料支持。数据集包含训练和测试数据，训练数据来源于问答、事实核查、自然语言推理和摘要等任务，测试数据包括从QA数据集模拟的数据和从生成式搜索引擎New Bing手动整理的数据。每个数据实例包含查询、答案、参考文档、标签和原始数据集信息。

提供机构：

osunlp

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本分类
语言: 英语
数据集大小: 100K<n<1M
数据集名称: AttrScore

数据集结构

数据实例

每个数据实例包含以下字段：

query: 查询问题（可能为空）
answer: 查询问题的答案
reference: 支持答案的文档或段落
label: 标签，指示参考文献是否能支持答案（"attributable", "extrapolatory", "contradictory"）
dataset: 数据实例的原始数据集来源

示例

json { "query": "", "answer": "Bastedo cared for all the animals that inhabit the earth.", "reference": "Alexandra Lendon Bastedo (9 March 1946 - 12 January 2014) was a British actress, best known for her role as secret agent Sharron Macready in the 1968 British espionage/science fiction adventure series "The Champions". She has been cited as a sex symbol of the 1960s and 1970s. Bastedo was a vegetarian and animal welfare advocate.", "label": "Extrapolatory", "dataset": "anli" }

json { "query": "The persian gulf war began when iraq invaded what country?", "answer": "The Persian Gulf War began when Iraq invaded Kuwait.", "reference": "First Iraq War or Iraq War, before the term "Iraq War" became identified instead with the 2003 Iraq War. The Iraqi Armys occupation of Kuwait that began 2 August 1990 was met with international condemnation and brought immediate economic sanctions against Iraq by members of the UN Security Council. Together with the UKs prime minister Margaret Thatcher - who had resisted the invasion by Argentina of the Falkland Islands a decade earlier - George H. W. Bush deployed US forces into Saudi Arabia, and urged other countries to send their own forces to the scene. An array of nations joined the coalition, forming the", "label": "Attributable", "dataset": "NaturalQuestions" }

数据集目的

该数据集用于评估大型语言模型（LLM）在生成搜索引擎中的引用评估，特别是验证生成的声明是否确实由引用的参考文献完全支持。训练数据来自相关任务，如问答、事实检查、自然语言推理和摘要。测试数据包括从QA数据集模拟的数据集和从生成搜索引擎手动策划的数据集。

搜集汇总

数据集介绍

构建方式

在大型语言模型（LLM）日益依赖外部引用生成内容的背景下，归因评估成为关键挑战。AttrScore数据集应运而生，其构建策略融合了多源数据的巧妙重组。训练数据源自问答、事实核查、自然语言推理和摘要等关联任务，通过重新标注与整合，形成归因评估的基础。测试数据则包含两部分：一部分从问答数据集中模拟生成，另一部分从生成式搜索引擎New Bing中人工精心筛选，确保覆盖真实场景。每条数据由查询、答案、参考文档及归因标签构成，标签分为“可归因”、“推断性”和“矛盾性”三类，以精细刻画支持程度。

使用方法

AttrScore适用于文本分类任务，尤其服务于归因评估模型的训练与测试。用户可直接加载HuggingFace上的数据集，利用其预划分的训练集和测试集进行模型开发。典型用法包括将查询、答案与参考文档拼接为输入，预测其归因标签（可归因、推断性或矛盾性）。数据字段清晰，支持灵活的预处理，如文本向量化或特征工程。研究人员亦可基于其来源字段（dataset）进行子集分析，或结合领域知识微调预训练语言模型，以提升归因验证的准确性与鲁棒性。

背景与挑战

背景概述

在大语言模型（LLM）迅猛发展的浪潮中，如何确保模型生成的陈述能够被外部引用准确支持，已成为自然语言处理领域的核心议题。尤其是在生成式搜索引擎的应用场景中，模型常需结合检索文档来构建回答，但对其归因能力（attribution）的自动评估却面临显著挑战。为填补这一空白，俄亥俄州立大学自然语言处理研究团队（OSU NLP Group）于2023年由Xiang Yue等人创建了AttrScore数据集，旨在系统性地评测LLM的归因质量。该数据集整合了来自问答、事实验证、自然语言推理和摘要等多种任务的训练数据，并基于现有问答数据集与New Bing生成式搜索引擎构建了测试集，为归因评估提供了标准化基准。自发布以来，AttrScore已成为推动LLM可信度与可解释性研究的关键资源，其影响力体现在对归因验证任务的标准化定义以及对后续模型改进的启发上。

当前挑战

AttrScore所解决的领域核心挑战在于，LLM在引用外部知识时，其生成的陈述可能仅部分支持、过度推断甚至与引用相矛盾，而当前缺乏自动化的细粒度归因评估手段。具体而言，模型需要区分三种归因标签：可归因（attributable）、外推性（extrapolatory）与矛盾性（contradictory），这要求评估系统具备精密的语义对齐与逻辑推理能力。在数据集构建过程中，团队面临多重困难：首先，从不同任务中重用的训练数据存在标注格式与语义粒度的不一致性；其次，从New Bing等生成式搜索引擎中人工筛选和标注测试实例需要大量专家判断，以确保标签的准确性；此外，部分早期版本中的标注错误需要事后修正（如v0.2版本对AttrEval-GenSearch数据集的修复），凸显了构建高质量归因基准的持续挑战。

常用场景

经典使用场景

在大型语言模型（LLM）日益融入生成式搜索引擎等实际系统的背景下，评估模型生成的陈述是否真正被所引用的外部文献所支持，即归因评估，成为一个关键挑战。AttrScore数据集正是为应对这一挑战而设计，其经典使用场景聚焦于对LLM生成内容的归因质量进行自动化评判。该数据集整合了来自问答、事实验证、自然语言推理和摘要等多项相关任务的训练数据，并构建了包含模拟自问答数据集与源自New Bing生成式搜索引擎的人工精选测试集，为归因评估任务提供了标准化评测基准。研究者可利用此数据集训练或微调分类模型，以判断给定答案与引用文献之间的关系属于完全可归因、外推性还是矛盾性，从而推动归因验证技术的系统化发展。

解决学术问题

AttrScore数据集的核心学术价值在于解决了大型语言模型生成内容归因验证这一新兴且棘手的研究问题。长期以来，尽管LLM在生成流畅文本方面取得显著进展，但其生成内容是否忠实于所引用的外部来源缺乏系统性的评估方法。该数据集通过构建多来源、细粒度的标注数据，为归因评估提供了从模型训练到性能测试的完整学术研究框架。它使得研究者能够量化分析不同模型在归因任务上的表现差异，探索影响归因质量的关键因素，并推动从简单的事实一致性检测向更精细的归因层次（可归因、外推、矛盾）判别迈进。这一工作的意义在于为构建可信赖、可验证的生成式AI系统奠定了关键的评估基础，促进了LLM在知识密集型应用中的可靠部署。

实际应用

在实际应用层面，AttrScore数据集所支撑的归因评估技术具有广泛而深远的落地价值。在生成式搜索引擎（如New Bing、Perplexity AI）中，该技术可用于自动验证搜索结果摘要是否准确反映了原始网页内容，从而提升信息呈现的可靠性。在智能问答系统、知识图谱构建和自动报告生成等场景中，归因评估能够帮助过滤掉模型虚构或偏离引用来源的内容，确保输出结果的可追溯性与真实性。此外，在学术文献辅助阅读、法律文书审核以及医疗信息摘要等对事实准确性要求极高的领域，基于AttrScore训练的归因分类器可作为自动化质量控制模块，辅助人工审核，大幅降低信息失真带来的风险。这些实际应用场景的展开，使得归因评估从理论探索走向了工程化部署的关键阶段。

数据集最近研究