aspectsim/AspectSim-Evaluation-Benchmark

Name: aspectsim/AspectSim-Evaluation-Benchmark
Creator: aspectsim
Published: 2026-05-02 09:17:43
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/aspectsim/AspectSim-Evaluation-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

AspectSim是一个大规模基于方面的文档对相似性评估基准。每个实例包含两篇完整文档、一个基于比较的自然语言方面以及一个人类可解释的相似性标签。该基准涵盖五个不同领域：新闻、观点、酒店评论、医学文献和科学同行评审，支持在多领域条件下评估基于方面的相似性模型。数据集包含约26,000个实例，使用GPT-4o作为可扩展的标注工具进行整理，并通过严格的人工标注验证，标签准确率达到94.2%（95%置信区间：93.3–95.1%）。

AspectSim is a large-scale aspect-conditioned document-pair similarity evaluation benchmark. Each instance consists of two full documents, a natural-language aspect on which the comparison is based, and a human-interpretable similarity label on an ordinal scale. The benchmark spans five diverse domains: news, opinion, hotel reviews, medical literature, and scientific peer reviews, enabling evaluation of aspect-aware similarity models under realistic multi-domain conditions. The dataset comprises approximately 26,000 instances curated using GPT-4o as a scalable annotation tool, with similarity labels validated through rigorous human annotation, achieving 94.2% label accuracy (95% CI: 93.3–95.1%).

提供机构：

aspectsim

搜集汇总

数据集介绍

构建方式

AspectSim-Evaluation-Benchmark 的构建流程严谨而精密，首先从涵盖新闻、观点评论、酒店评论、医学文献及科学同行评审五大公开领域的高质量多文档摘要语料库中，基于文档对相似度在 0.6 至 0.9 之间的筛选标准，采样约 2,100 个主题连贯且非琐碎的文档对。随后，利用 GPT-4o 作为可扩展标注工具，执行一个结构化的三阶段过程：第一步，从一对文档中自动识别出共同讨论的显著方面；第二步，针对每个抽取的方面，独立地从每篇文档中提取最相关的文本证据；第三步，比较提取的证据对，为其分配一个有序相似性标签，包括高度相似、部分相似、边缘相似及未发现四种。最终，从所有实例中随机分层抽取 10% 的子集，由两位分别具备自然语言处理或计算语言学背景的专家进行独立人工验证，确认 GPT-4o 生成的银标准标签与人工黄金标注的准确率高达 94.2%，从而确保了数据集构建的可靠性与可重复性。

特点

该数据集具有多方面突出特点。其以方面为条件的文档对相似性评估范式为核心创新，能够捕捉两篇文档在某个特定自然语言方面的讨论相似度，而非其整体主题重叠，显著提升了相似度评估的粒度与可解释性。数据覆盖新闻、政治观点、医学、科学评审及用户评论五个领域，总计约 26,000 个实例，提供了丰富且真实的多领域评估场景。每个实例包含两篇完整文档、一个自然语言方面及一个人类可理解的有序标签，标签体系明确为四级尺度。尤为重要的是，通过严谨的人工验证，数据集在方面感知设置下人类间一致性达到了极高的 κ ≈ 0.905，银标准标签准确性高达 94.2%，确保了标签质量。此外，数据集明确指出了其领域偏差、语言单一性及潜在模型偏见等限制，为用户提供了负责任使用的必要警示。

使用方法

该数据集的使用方法灵活多样，核心目的是作为方面感知文档相似度模型的标准化评估基准。用户可以直接加载提供的 CSV 文件，使用 pandas 和 openpyxl 等工具读取，每个实例包含域、方面类型、文档文本、方面及标签等关键字段。对于模型评估，推荐将有序标签映射为 0 至 3 的数值后，采用斯皮尔曼等级相关系数等排序相关性指标进行性能衡量，而非绝对准确率，以更好地反映排序一致性。该数据集适用于训练或评估给定（文档A, 文档B, 方面）三元组预测相似度标签的模型，也可用于基准测试方面感知检索、嵌入相似度或大模型作为评判者的流程。使用时需注意根据域或方面类型自行划分数据子集以避免信息泄露，且该基准不适用于高风险决策、跨语言评估等未经验证的使用场景。

背景与挑战

背景概述

AspectSim-Evaluation-Benchmark数据集由匿名研究团队在2026年发布，旨在填补方面条件文档相似性评估领域的空白。现有基准大多关注整体主题重叠，难以捕获细粒度、可解释的语义对应关系。该数据集基于五个公开多文档摘要语料库构建，涵盖新闻、观点、医学文献、科学评审和用户评论领域，包含约26,000个实例。通过GPT-4o驱动的三阶段流水线（方面识别、证据提取、标签分配）生成标注，并经过专家人工验证，在方面感知设置下达到了κ≈0.905的高人类间一致性，标签准确率达94.2%。该数据集推动了方面感知相似性模型的发展，为检索、嵌入评估及大语言模型评判框架提供了标准化基准。

当前挑战

该数据集主要解决领域挑战：传统文档相似性度量方法忽略方面信息的引导，难以区分细微语义差异，尤其在医学、法律等高风险领域，缺乏可解释、可定制的评估工具。构建过程面临多重困难：1）跨领域泛化——五个领域在风格、主题和规模上差异显著，模型难以同时适应；2）标注噪声——仅10%的数据经人工验证，GPT-4o自动生成的标签在边界案例（如“部分相似”与“边缘相似”之间）可能存在歧义；3）固有偏差——LLM可能系统性偏好特定方面或相似模式，且新闻和观点文本蕴含时间和文化偏见，导致基准不完全反映人类判断的多样性；4）单语言限制——仅支持英文评估，无法扩展至多语或跨语场景。

常用场景

经典使用场景

AspectSim-Evaluation-Benchmark作为面向方面条件文档相似性评估的大规模基准数据集，其核心使用场景在于衡量两个文档在特定自然语言方面上的语义相似度。该数据集包含约26,000个实例，覆盖新闻、观点、酒店评论、医学文献和科学同行评审五个多样化领域，为研究者提供了标准化的多领域评估平台。数据集中每个实例由一对完整文档、一个描述性方面以及一个有序相似度标签组成，标签分为高度相似、部分相似、边缘相似和未发现四个等级。这一设计使得研究者能够训练或评估基于三元组（文档A、文档B、方面）预测相似度的模型，同时支持检索系统、嵌入向量相似度评估以及大语言模型裁判管道的基准测试，成为方面感知相似性研究领域不可或缺的标准化评测工具。

衍生相关工作

AspectSim数据集的发布催生了一系列具有影响力的衍生研究工作。首先，它推动了方面感知相似度评估框架的标准化进程，众多研究团队基于该基准设计并验证了新型相似度模型，如方面条件化的嵌入对齐模型和基于大语言模型的细粒度比较方法。其次，该数据集促进了元评估研究的发展，研究者利用其人类标签来对比不同自动化度量指标的效能，尤其是Spearman等级相关分析在相似度评价中的应用得到了深入探讨。此外，围绕数据生成流程中的GPT-4o标注与人类验证相结合的方法论，衍生出关于弱监督标注可靠性分析以及标注偏差消减策略的学术讨论。数据集的跨领域覆盖特性还激发了关于领域迁移与泛化能力的实证研究，推动了多领域方面相似度模型的鲁棒性提升。

数据集最近研究