CiteTrace

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/anon-citetrace/CiteTrace

下载链接

链接失效反馈

官方服务：

资源简介：

CiteTrace是一个包含761,495个可评估（查询、来源、答案）三元组的数据集，源自10个搜索增强的LLM回答28个Stack Exchange站点上的11,200个问题（技术和学术社区占比过高）。数据集包含多个配置文件，如查询、来源、引用、模型响应等，主要用于文本分类和问答任务。数据集提供了详细的分类和评分系统，包括查询意图（QI）、来源目的（SP）、答案-来源保真度（ASF）、来源领域（SD）和来源类型（ST）。评估的模型包括OpenAI、Anthropic、Google、xAI和Perplexity的多个版本。数据集适用于复制论文中的引用质量指标、训练分类器以及验证或扩展IPAM和SSM评分矩阵。数据集遵循CC BY 4.0和CC BY-SA 4.0许可协议，Stack Exchange查询需署名。

CiteTrace is a dataset containing 761,495 evaluable (query, source, answer) triples, derived from 10 search-enhanced LLMs answering 11,200 questions across 28 Stack Exchange sites (with an overrepresentation of technical and academic communities). The dataset includes multiple configuration files such as queries, sources, citations, and model responses, primarily used for text classification and question-answering tasks. It provides detailed classification and scoring systems, including Query Intent (QI), Source Purpose (SP), Answer-Source Fidelity (ASF), Source Domain (SD), and Source Type (ST). Evaluated models include various versions from OpenAI, Anthropic, Google, xAI, and Perplexity. The dataset is suitable for replicating citation quality metrics in papers, training classifiers, and validating or extending the IPAM and SSM scoring matrices. The dataset is licensed under CC BY 4.0 and CC BY-SA 4.0, with Stack Exchange queries requiring attribution.

创建时间：

2026-05-02

原始信息汇总

数据集概述：CiteTrace

CiteTrace 是一个专注于引用质量评估的数据集，包含 761,495 个可评估的（查询，来源，答案）三元组，覆盖 10 个搜索增强型大语言模型对 11,200 个 Stack Exchange 问题 的回答，这些问题来自 28 个站点（技术和学术社区占比较高）。

数据组成与文件结构

数据集包含以下主要文件（以 Parquet 格式存储）：

文件	行数	列数	描述
`data/queries.parquet`	11,200	6	Stack Exchange 问题（每个站点 400 个问题，共 28 个站点）
`data/sources.parquet`	231,105	9	被引用的 URL 及其爬取状态和标签
`data/citations.parquet`	761,495	8	可评估的引用三元组
`data/model_responses.parquet`	112,000	3	原始 LLM 响应（10 个模型 × 11,200 个查询）
`data/analysis_master.parquet`	761,495	20	主分析表 — 连接并评分后的数据
`data/ipam_human_eval.parquet`	30	8	IPAM 矩阵人类验证数据
`data/ssm_human_eval.parquet`	60	10	SSM 矩阵人类验证数据
`scoring_matrices/{ipam,ssm}_matrix.tsv`	30 / 60	—	IPAM 和 SSM 评分查找表
`site_topology/se_official_audience.json`	28	—	Stack Exchange API 快照

连接键：query_id 连接 queries ↔ citations ↔ analysis_master；url_id 连接 sources ↔ citations ↔ analysis_master。

分类与评分体系

数据集围绕五个核心维度构建分类与评分：

维度	代码	标签
查询意图 (QI)	QI1..QI5	事实性、解释性、指令性、比较性、观点性
来源目的 (SP)	SP1..SP6	推广、告知、指导、报告、讨论、发表观点
答案-来源忠实性 (ASF)	ASF1..ASF5	捏造、归因错误、矛盾、放大、支持
来源领域 (SD)	SD1..SD10	医疗、法律、金融、教育、科学、代码/数据、技术、社交/专业、购物/旅行、日常
来源类型 (ST)	ST1..ST6	官方、研究、新闻、维基/论坛、博客/社交媒体、公司

评分机制：ipam_score = IPAM[QI][SP]，ssm_score = SSM[SD][ST]，asf_score = ASF{k} → k。

评估的模型

数据集包含 10 个来自 5 家提供商的模型（2026 年第一季度 API 版本，数据收集时间为 2026-03-26 至 2026-04-09）：

OpenAI：gpt-5, gpt-5-mini
Anthropic：claude-sonnet-4.6, claude-haiku-4.5
Google：gemini-3.1-pro, gemini-3-flash
xAI：grok-4.1-reasoning, grok-4.1-non-reasoning
Perplexity：sonar, sonar-reasoning-pro

预期用途与范围外用途

预期用途：复现论文中报告的每个模型的引用质量指标；训练用于引用意图或来源适合性的分类器；通过新的专家小组验证或扩展 IPAM 和 SSM 评分矩阵。
范围外用途：数据集中的模型排名仅反映 15 天内（2026-03-26 至 2026-04-09）的提供商搜索后端快照，不应被视为任何单一提供商的永久质量评估；论文的核心主张是结构性失败模式，而非模型排名。

许可信息

组件	许可证
查询（Stack Exchange 帖子标题）	CC BY-SA 4.0
模型响应（原始响应、引用的句子）	CC BY 4.0 + 各提供商 API 服务条款
分类体系、评分矩阵、人类评估标注、代码	CC BY 4.0
爬取的来源全文	不重新分发

使用查询集时需要注明 Stack Exchange 来源。使用者在复用数据时应自行检查各提供商的当前服务条款。

搜集汇总

数据集介绍

构建方式

CiteTrace数据集以Stack Exchange平台上28个技术性与学术性社区的11,200个问题为查询元，驱动10种检索增强型大语言模型生成应答，进而构建出761,495条可评估的（查询、来源、答案）三元组。每条三元组通过爬取来源URL的内容状态与人工标注的标签进行校验，并依据查询意图、来源目的、答案-来源忠实度、来源领域与来源类型五轴分类体系完成编码，最终利用IPAM与SSM两套评分矩阵实现多维量化评估。

特点

CiteTrace的核心特色在于其细粒度的引文级别标注与多维度评分框架。数据集不仅涵盖从事实性到观点性的五种查询意图，还区分了从推广到讨论的六种来源目的以及从虚构到支持的五种忠实度等级，同时引入来源领域与类型标签，形成覆盖30个交叉维度的IPAM矩阵与60个单元的SSM矩阵。这些矩阵均基于10位人工评审员的标注结果构建，并附有独立的人体验证子集，确保了评估的可靠性与可复现性。

使用方法

用户可通过HuggingFace datasets库便捷加载CiteTrace，例如使用load_dataset('anon-citetrace/CiteTrace', 'analysis_master', split='train')获取包含完整评分的主分析表。数据集提供queries、sources、citations、model_responses等多个配置项，支持对引文质量指标的重现、引文意图分类器的训练以及评分矩阵的扩展验证。需注意，模型排名仅反映2026年3月底至4月初的服务端快照，不宜泛化为对提供商的永久性评估。

背景与挑战

背景概述

CiteTrace数据集诞生于检索增强生成（RAG）技术快速演进的背景下，由匿名研究团队于2026年构建，旨在系统评估大语言模型（LLM）在回答真实世界查询时的引用质量。该数据集覆盖10种主流LLM（如GPT-5、Claude Sonnet 4.6、Gemini 3.1 Pro等）对Stack Exchange平台28个技术社区中11,200个问题的回答，共生成761,495个可评估的引用三元组。研究团队创新性地设计了查询意图、源目的、回答-源保真度、源领域和源类型五维分类体系，并基于人工评分开发了IPAM和SSM两种引用质量评分矩阵，为理解LLM的引用行为提供了系统化的分析框架。CiteTrace的出现填补了现有基准测试仅关注答案内容而忽视引用可信度的空白，对推动RAG系统的透明性和可靠性研究具有里程碑意义。

当前挑战

CiteTrace所解决的领域核心挑战在于：现有LLM在生成引用时频繁出现虚构来源、错误归因、自相矛盾等结构性失败模式，而缺乏大规模、细粒度的引用质量评估基准。在构建过程中，研究团队面临三大技术难题：其一，需对来自28个不同技术领域的查询进行标准化分类，确保查询意图标签的领域一致性；其二，需手动爬取并验证231,105个引用URL的可达性及内容标签，处理网页动态变化导致的失效链接问题；其三，需通过人工评估构建5×6的IPAM和10×6的SSM评分矩阵，在确保评分者间信度的同时控制标注成本。此外，数据集时间戳局限于2026年3月至4月的15天窗口，模型后端持续更新带来的时效性挑战，要求后续使用者必须在引用时重新验证服务商的当前条款。

常用场景

经典使用场景

在检索增强生成（RAG）系统的研究中，CiteTrace作为一项基准数据集，被广泛用于评估大语言模型在引用生成中的可信度与精确性。其核心设计围绕Stack Exchange平台上的11,200个真实问题展开，覆盖技术、学术等多个专业社区，通过76万余条可评估的（查询、来源、答案）三元组，系统性地刻画了模型在引用来源时的行为模式。研究者可借助该数据集的IPAM和SSM评分矩阵，从查询意图、来源目的、领域类型等维度精细分析引文质量，为RAG系统的稳健性验证提供了标准化测试平台。

解决学术问题

CiteTrace直指检索增强生成领域中一个长期存在的学术难题：如何系统量化和归因大语言模型在引用来源时的错误类型与结构性失败模式。传统评估方法多依赖人工或粗糙的自动指标，难以区分虚构、错误归属、矛盾、放大与支持等细粒度引用失实现象。该数据集通过引入多维度的分类体系（如回答-来源忠实度ASF），并结合跨模型、跨领域的标准化实验设计，为研究者提供了剖析模型引用行为深层机理的实证基础，推动了引文可信度评估从主观判断向可量化、可复现的科学范式转变。

衍生相关工作

CiteTrace的发布催生了一系列后续研究工作，尤其是在引用意图分类与来源适宜性建模方面。研究者基于其IPAM（5×6）和SSM（10×6）评分矩阵，开发了轻量级分类器，能够自动预测模型回答中引文的意图匹配度与领域适宜性。此外，多篇学术论文利用该数据集的跨模型比较框架，深入分析了不同规模与架构的模型在引用行为上的系统性差异，并提出了基于强化学习的引用策略优化方法。这些衍生工作共同推动了大语言模型引文生成从经验观察向理论建模与可控优化的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集