CITETRACE
收藏arXiv2026-05-27 更新2026-05-29 收录
下载链接:
https://huggingface.co/datasets/oseoko/citetrace-vm
下载链接
链接失效反馈官方服务:
资源简介:
CITETRACE是由多机构联合构建的大规模引用质量评估数据集,旨在系统分析检索增强大语言模型中的结构性引用失效问题。该数据集包含来自28个Stack Exchange社区的11,200条真实用户查询,覆盖技术、医学、法律等多元领域,并收集了五个提供商十种模型的112,000条响应,最终形成761,495条可评估的引用对,每条均链接查询、模型生成句子及爬取的源内容。数据构建过程通过统一中性提示词收集模型响应,并直接爬取每个引用URL以获取源文本,确保评估基础的真实性。该数据集主要应用于评估检索增强系统的引用质量,诊断“已验证误导”现象,解决模型在意图对齐、源适任性和答案保真度等多维度的失效问题,为改进生成与检索阶段的协同机制提供关键资源。
CITETRACE is a large-scale citation quality evaluation dataset jointly constructed by multiple institutions, aiming to systematically analyze the structural citation failure issues in retrieval-augmented large language models. This dataset contains 11,200 real user queries from 28 Stack Exchange communities, covering diverse fields such as technology, medicine, law and other disciplines. It collects 112,000 responses from 10 models across 5 providers, ultimately forming 761,495 evaluable citation pairs, each linking the user query, model-generated sentences and crawled source content. During the dataset construction process, unified neutral prompts were used to collect model responses, and each cited URL was directly crawled to obtain the source text, ensuring the authenticity of the evaluation foundation. This dataset is primarily applied to evaluate the citation quality of retrieval-augmented systems, diagnose the phenomenon of "verified misinformation", address the failure problems of models in multiple dimensions including intent alignment, source appropriateness and answer fidelity, and provide key resources for improving the collaborative mechanism between the generation and retrieval stages.
提供机构:
延世大学·人工智能系; 建国大学·计算机科学与工程系; 仁川国际机场公司; 梨花女子大学·计算机科学与工程系; ParamitaAI
创建时间:
2026-05-27
原始信息汇总
数据集概述:CiteTrace
数据集名称:CiteTrace 语言:英语 (en) 许可协议:CC BY-SA 4.0 和 CC BY 4.0 混合许可(各组件具体许可详见下方说明) 数据规模:包含 761,495 条可评估的 (query, source, answer) 三元组。
数据来源与构建
- 查询来源:来自 28 个 Stack Exchange 站点的 11,200 个问题(每个站点 400 个),技术类和学术类社区的代表性较高。
- 模型来源:由 10 个搜索增强的大语言模型(LLM)回答上述问题。这些模型来自 5 个提供商(OpenAI、Anthropic、Google、xAI、Perplexity),API 检查点为 2026 年第一季度,数据收集于 2026-03-26 至 2026-04-09。
- 数据内容:包括模型生成的原始回答、引用的来源 URL 及其爬取状态标签、以及可评估的引文三元组。
数据集结构与配置
数据集包含多个配置(configs),对应不同的数据文件(Parquet 格式):
| 配置名称 (Config) | 数据文件 | 行数 | 描述 |
|---|---|---|---|
queries |
data/queries.parquet |
11,200 | Stack Exchange 问题,包含 6 列。 |
sources |
data/sources.parquet |
231,105 | 被引用的 URL,包含爬取状态和标签,共 9 列。 |
citations |
data/citations.parquet |
761,495 | 可评估的引文三元组,共 8 列。 |
model_responses |
data/model_responses.parquet |
112,000 | 10 个模型对 11,200 个查询的原始回答,共 3 列。 |
analysis_master |
data/analysis_master.parquet |
761,495 | 主分析表,连接并评分后的数据,共 20 列。 |
ipam_human_eval |
data/ipam_human_eval.parquet |
30 | IPAM(意图-目的对齐矩阵)的人类验证数据,N=10。 |
ssm_human_eval |
data/ssm_human_eval.parquet |
60 | SSM(来源-类型适合度矩阵)的人类验证数据,N=10。 |
qi_human_eval |
data/qi_human_eval.parquet |
200 | 查询意图 (QI) 轴的判断器验证:GPT-4o-mini 标签 + 3 名人类评分者。 |
sp_human_eval |
data/sp_human_eval.parquet |
200 | 来源目的 (SP) 轴的判断器验证。 |
sd_human_eval |
data/sd_human_eval.parquet |
200 | 源领域 (SD) 轴的判断器验证。 |
st_human_eval |
data/st_human_eval.parquet |
200 | 源类型 (ST) 轴的判断器验证。 |
asf_human_eval |
data/asf_human_eval.parquet |
200 | 答案-来源忠实度 (ASF) 轴的判断器验证。 |
关键链接键:
query_id链接queries↔citations↔analysis_master。url_id链接sources↔citations↔analysis_master。
数据标注与评分体系
数据集采用多维分类法(Taxonomy)对引文质量进行标注和评分:
| 评估轴 (Axis) | 编码 (Codes) | 标签 (Labels) |
|---|---|---|
| 查询意图 (QI) | QI1..QI5 | 事实性、解释、指令、比较、观点 |
| 来源目的 (SP) | SP1..SP6 | 推广、告知、指导、报告、讨论、表达观点 |
| 答案-来源忠实度 (ASF) | ASF1..ASF5 | 捏造、错误归因、矛盾、放大、支持 |
| 源领域 (SD) | SD1..SD10 | 医疗、法律、金融、教育、科学、代码/数据、技术、社交/专业、购物/旅行、日常 |
| 源类型 (ST) | ST1..ST6 | 官方、研究、新闻、维基/论坛、博客/SNS、公司 |
评分机制:
ipam_score通过查询意图 (QI) 和来源目的 (SP) 的交叉查询IPAM矩阵(5×6)得出。ssm_score通过源领域 (SD) 和源类型 (ST) 的交叉查询SSM矩阵(10×6)得出。asf_score直接映射自 ASF 编码(ASF_{k} → k)。IPAM和SSM矩阵文件位于scoring_matrices/{ipam,ssm}_matrix.tsv,基于 N=10 的人类评分构建。
数据加载
使用 Hugging Face datasets 库加载。例如,加载主分析表:
python
from datasets import load_dataset
ds = load_dataset("oseoko/citetrace-vm", "analysis_master", split="train")
预期用途与限制
- 预期用途:
- 复现论文中报告的每个模型的引文质量指标。
- 训练用于引文意图或来源适用性分类的分类器。
- 通过新的专家小组验证或扩展 IPAM 和 SSM 评分矩阵。
- 非预期用途(范围外):
- 数据集反映的是 2026-03-26 至 2026-04-09 期间提供商搜索后端的15天快照,不应被视为任何单一提供商的永久质量评估。论文的核心主张是结构性的失败模式,而非模型间的排名顺序。
许可协议 (Licensing)
- 查询数据(Stack Exchange 帖子标题):CC BY-SA 4.0
- 模型回答(原始回答和引用句子):CC BY 4.0 + 各个提供商的 API 服务条款
- 分类法、矩阵、人类评估注释、代码:CC BY 4.0
- 爬取的来源全文:不在此数据集中重新分发。
搜集汇总
数据集介绍

构建方式
在检索增强型大语言模型日益成为信息获取核心渠道的背景下,CITETRACE数据集应运而生,旨在填补现有基准对引用结构完整性联合评估的空白。该数据集的构建起始于从Stack Exchange平台的28个社区中精心筛选出11,200个真实用户查询,这些社区横跨技术、科学、生活艺术等六大类别,且均满足需专业知识、存在商业参与者及涉及实质性决策三大条件。随后,研究团队向五大提供商(OpenAI、Anthropic、Google、xAI及Perplexity)的十款模型统一发送这些查询,收集到112,000条带有引用的响应,并提取出1,271,046个引用对。最终,通过逐一爬取每个引用URL的实际内容,经过严格的评估性过滤(移除纯代码、表格及过短内容),构建了包含761,495个可评估引用对的核心数据集。
特点
CITETRACE数据集最具革新性的特点在于其实现了对引用质量的联合评估,而非孤立的单维度考察。它创新性地设计了一个三维评估框架:意图-目的对齐度(衡量查询信息需求与来源沟通目的匹配度)、来源适宜性(评估来源类型在特定领域内的可信度)以及答案-来源忠实度(评判引用语句是否真实反映来源内容)。基于对761,495个引用对的系统分析,该数据集揭示了一个深刻的“忠实-适宜权衡”现象:忠实反映来源的模型倾向于选择不适宜的来源,反之亦然。尤为严峻的是,高达30.6%的引用扭曲了其来源内容,27.1%的引用源自领域不适当的来源,且88%至96%的引用质量差异可归因于提供商层面的因素,而非模型个体能力。
使用方法
CITETRACE数据集为检索增强型系统的引用质量研究提供了强大的工具。研究者可直接使用HuggingFace上发布的数据集快照进行确定性复现,无需重新调用各提供商API。具体而言,用户可通过加载analysis_master.parquet主表,利用其中每个引用对的五项分类标签(QI、SP、ASF、SD、ST)及三项衍生分数(ipam_score、asf_score、ssm_score),复现论文中所有聚合指标。该数据集支持两种分析粒度:引用级(76万个数据点)和响应级(按query_id与model_short分组)。对于希望进行横向比较的研究者,可直接重用论文中经过专家验证的IPA和SS评分矩阵,以及完整的LLM裁判提示模板,将评估框架无缝应用于新的查询集、模型或未来的重新收集数据上。
背景与挑战
背景概述
随着检索增强型大语言模型(LLMs)的广泛部署,用户依赖其生成的包含引用的回答作为信息真实性的凭证,却极少亲自验证所引页面的可靠性。每日数以百万计的查询流经这些系统,使得引用质量成为影响用户是否被正确信息引导或误导的隐性决定性因素。然而,现有评估基准各自孤立地关注引用的某一维度,未能全面衡量决定引用可信度的联合结构。为填补这一空白,首尔大学延世大学、建国大学、梨花女子大学等机构的研究人员于2026年构建了CITETRACE数据集。该数据集追踪从用户查询、检索源到生成答案的完整引用链条,涵盖来自28个社区的11,200条真实世界查询,以及来自五大供应商、十个模型的112,000条响应,最终形成761,495个可评估的引用对。CITETRACE首次为诊断已部署的检索增强系统中存在的结构性引用失败提供了大规模资源,对提升生成式搜索的信息可靠性具有重要影响力。
当前挑战
CITETRACE所解决的领域问题是检索增强型LLMs中普遍存在的‘验证性误导’现象,即模型引用了真实可访问的源,却在意图-目的对齐、源适用性或答案-源忠实度等一个或多个维度上失效,使得用户即使验证引用也无法察觉信息的误导性。这一挑战超越了传统的幻觉检测,因为引用本身真实存在,但可能因源类型不适用于特定领域、源内容被扭曲或源目的与用户意图冲突而具备误导性。在数据集构建过程中,研究人员面临诸多挑战:首先,需从Stack Exchange的28个社区中筛选出既需要专业知识又存在商业动机的高风险查询;其次,要在同一15天窗口内收集来自十个不同模型的响应,以确保检索结果的可比性;再者,需爬取所有被引用的URL并恢复源内容,但高达36.8%的URL因机器人封禁而获取失败,尤其集中在论坛和社交媒体源,导致评估池存在结构性偏差。此外,设计一个能在意图-目的对齐、源适用性和答案-源忠实度三个维度上进行联合评估的框架,并确保LLM评判者与人类标注者间的一致性,也是构建过程中的核心难题。
常用场景
经典使用场景
在检索增强型大语言模型迅速渗透日常信息获取的背景下,CITETRACE被广泛用作系统性诊断引用质量的结构化基准。该数据集通过将11,200条真实用户查询、来自五家提供商十种模型的112,000条响应以及每条被引用的网页原文进行三重链接,构建了761,495个可评估的引用对。研究者能够利用其三维评估框架,从意图-目的对齐、源类型域适宜性以及答案-源忠实度三个独立维度,对模型生成的引用进行细粒度的联合评估,从而揭示单一维度评估所无法捕捉的结构性失败模式。
解决学术问题
面对现有基准孤立测量引用质量单一维度的局限,CITETRACE首次实现了对“验证性误导”这一系统性现象的全景式刻画。该数据集解决了长期困扰学界的核心问题:模型引用真实可访问的源却仍可能误导用户——通过揭示忠实度与适宜性之间的权衡,即忠实的模型倾向于选择不适合的源,而选对源的模型又常扭曲其内容。研究发现30.6%的引用扭曲原文、27.1%来自域不适宜的源,且提供者层面的差异解释了88-96%的质量方差,这一发现将学术关注点从单纯改善生成能力拓展至检索阶段源选择的重要性。
衍生相关工作
CITETRACE的发布催生了多条富有成果的研究路径。基于其三维评估框架,研究者开发了意图感知的检索重排序算法,利用意图-目的对齐矩阵作为排序函数以提升源选择质量。针对高风险领域的域感知源过滤机制借鉴了其源适宜性矩阵的设计原则。在生成侧,受其发现推理模型能改善忠实度但无法改善源选择的启发,研究者探索了引用质量提示策略。此外,该数据集提供的跨提供者比较范式已被后续工作采纳为评估引用质量的标准化协议,其专家验证的预定义矩阵也成为衡量源-域交互效应的通用工具。
以上内容由遇见数据集搜集并总结生成



