ai-vs-human-rubric-companion-data

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/forreview43/ai-vs-human-rubric-companion-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一项关于AI与人类评分标准研究的配套数据，与一个独立的匿名代码仓库配对使用，共同复现论文中的所有关键数据。数据集包含多个目录和文件，涵盖了基准案例、文本嵌入、评分标准以及研究发现等内容。具体包括：原始的人类评分标准、14个模型生成的评分标准、重写的人类评分标准及其审计轨迹、用于计算研究发现1的匹配对文件、研究发现2的重评分输出、研究发现3的覆盖率和规范性倾向分析等。数据集采用MIT许可证，语言为英语，适用于道德推理、LLM评估、评分标准等研究任务。数据规模在1K到10K之间。

创建时间：

2026-05-06

原始信息汇总

数据集概述：AI vs Human Rubric Companion Data

基本信息

数据集名称：AI vs Human Rubric Companion Data
许可协议：MIT
语言：英语（en）
标签：道德推理（moral-reasoning）、大模型评估（llm-evaluation）、评估准则（rubric）、MoReBench基准
数据规模：1,000 < n < 10,000 条样本
数据集页面：https://huggingface.co/datasets/forreview43/ai-vs-human-rubric-companion-data

用途说明

该数据集是匿名NeurIPS投稿的配套数据，与独立的代码仓库配合使用。数据与代码共同可复现论文中的所有核心数据结果，无需重新运行任何API支持的阶段。

数据目录结构

核心发布数据（`paper_release/`）

inputs/：基准测试案例、100案例样本及种子文件
embeddings/：用于匹配和覆盖步骤的文本嵌入缓存
rubrics/original/：发布的MoReBench人类评分准则
rubrics/ai_rubrics/：13个模型生成的评分准则文件（覆盖11个主要模型和2个较小对比模型）
rubrics/rewrite/：级联重写的人类评分准则及其审计追踪（用于发现3）

三大研究发现相关数据

发现1（Finding 1）
- rubric_as_response_capture/：针对Gemini 2.5 Pro、GPT-5.4、Opus 4.6及四个较小模型基线的100案例评分捕获检查
- open_ended_response_eval/：较小模型基线的人类评分响应评分结果
发现2（Finding 2）
- coverage/：余弦池化覆盖结果（global_unique_t70/、human_model_unique_t70_all/）
- direct_check/：LLM裁判原始输出及双方法交集摘要
- normative_tendencies/：每个模型相同分支的规范性标签摘要
- normative_dimension_labels/：每个准则的标签输出
发现3（Finding 3）
- criterion_pairs/：用于计算符合度差距的匹配对文件
- cascade_rescoring/：用于计算重写提升表的每个模型重新评分输出
- generality_validation/：跨裁判检验结果

完整规范复现语料库（`canonical_full/`）

responses/：用于评分所有符合度判断的模型响应
rubrics/：每个模型的评分准则语料库
criterion_match/：每（模型，案例）匹配管道输出（中间结果）
answer_eval/：使用原始人类准则、级重重写人类准则及模型生成准则的每个模型判断输出
common100/：跨配对匹配和覆盖分析的100案例共享切片

其他文件

croissant.jsonld：含负责任AI字段的Croissant元数据文件
reviewer_sample/：用于OpenReview数据集的代表性样本
SAMPLE_CREATION.md：样本选择说明
HF_UPLOAD_CHECKLIST.md：上传后需填写的OpenReview字段检查清单

数据来源与验证

发布的关键衍生产物包括：paper_release/finding3/criterion_pairs/finding1_confirmed_pairs.json 和 paper_release/rubrics/rewrite/human_rubric_cascade_rewritten.jsonl
配套代码仓库中的验证脚本 validate_release_metrics.py 可直接从发布产物重新计算三个发现的核心数据
配套代码仓库中的 manifests/sha256.json 记录了各文件的SHA-256哈希值
reviewer_sample/manifest.json 记录了样本文件的字节大小和哈希值

搜集汇总

数据集介绍

构建方式

该数据集作为一项匿名NeurIPS投稿论文的配套数据资源，与独立的代码仓库协同发布，旨在复现论文中所有面向读者的核心指标。数据集采用分层目录结构组织，核心内容存放于`paper_release/`目录下，涵盖基准测试用例、文本嵌入缓存、人类编写的MoReBench评分标准、11个主要模型及2个对比模型生成的AI评分标准、以及级联重写后的人类评分标准及其审计轨迹。此外，`canonical_full/`目录提供了完整的规范化复现语料库，包含模型响应、评分标准及匹配与评估流水线的中间产物。为确保可验证性，数据集附带了shasum哈希清单及验证脚本，无需重新运行任何API依赖阶段即可直接计算论文中的关键数字。

使用方法

使用该数据集时，需首先将其下载至配套代码仓库的`./data/`目录下，并确保目录结构符合发布时的相对路径约定。可通过运行`./code/bin/00_fetch_data`便捷地调用huggingface-cli下载工具完成数据获取。随后，执行`python3 code/validation/validate_release_metrics.py --section all`即可调用验证脚本，从发布的静态产物中重新计算论文中所有标题数字，并生成验证报告。该数据集基于MIT许可证开放，但重新运行涉及API的阶段需用户自行提供相应的模型提供商凭证，并遵守相关使用条款。

背景与挑战

背景概述

在人工智能与人类道德推理的交叉研究领域，如何系统性地评估大语言模型（LLM）在道德判断任务上的表现，已成为一个关键且富有挑战性的课题。该数据集由匿名研究团队于 NeurIPS 匿名投稿期间创建，旨在提供一套透明的、可复现的评估基准，以揭示 AI 与人类在道德评分中的差异。数据集配套了完整的代码仓库与验证脚本，确保所有论文中的核心数字均可被独立复现。其核心研究问题聚焦于：模型生成的评分标准（Rubric）与人类专家评分标准之间的一致性程度，以及通过级联改写等方式弥合这一“满足差距”（fulfillment gap）的可能性。该数据集的出现为 LLM 的道德推理评估领域提供了重要的方法论支撑与实证资源，有望推动该领域迈向更高的标准化与可复现性。

当前挑战

该数据集所解决的领域挑战在于：现有道德推理评估多依赖人工评分或单一模型输出，缺乏系统性的跨模型、跨标准比较框架，且难以保证研究结果的可复现性。具体而言，研究中发现了模型评分标准与人类标准之间的“满足差距”，即模型在自身生成的标准下表现评分较高，而在人类标准下则显著下降，这揭示了评估中潜在的系统性偏差。在构建过程中，数据集面临的主要挑战包括：如何设计出能够同时支持多种模型（11种主要模型及2种对比模型）的评分标准生成与比较流程；如何确保覆盖分析（coverage）中评分单元的同质性，以进行余弦池化等定量操作；以及如何通过级联改写流程在保持语义一致性的前提下，有效提升评分标准与人类标准的一致度。此外，跨评判者的泛化性验证亦对数据集的结构与完整性提出了严格要求。

常用场景

经典使用场景

该数据集的核心价值在于为AI与人类在道德推理评分任务中的对比研究提供了系统化的数据基石。研究者常利用该数据集中的13个模型生成的评分标准、级联重写的评分标准以及100例代表性样本，开展针对大语言模型在道德判断任务上表现的系统性评估。通过配对分析模型生成的评分标准与人类标准之间的覆盖度、规范性标签一致性以及满足度差异，研究者能够深入剖析模型在复杂伦理场景下的认知差距。该数据集特别适用于需要严格复现实验结果的场景，其配套的代码仓库与验证工具链确保了每一处关键数据均可被独立校验与复现，从而为道德推理领域的可重复性研究树立了高标准的实践范例。

解决学术问题

该数据集精准回应了当前AI伦理研究中的核心困境：如何客观衡量大语言模型在道德推理任务中的表现是否真正逼近人类水平。传统评估往往依赖简单的正确率指标，忽略了道德判断中评分标准本身的质量差异与覆盖偏差。通过系统性地比较人类与多模型在评分标准生成、语义覆盖度、规范性标签分布及判断满足度等维度上的差异，该数据集首次为量化评估AI的道德推理一致性提供了多维度的实证依据。其研究揭示了模型在特定伦理分支上存在的系统性偏见，推动了学界从单一性能比较转向对模型价值观结构差异的深入探讨，对构建更为稳健的AI伦理评测体系具有深远的方法论启示。

实际应用

在实际应用层面，该数据集为构建可信赖的AI辅助伦理决策系统提供了关键支撑。例如，在医疗伦理咨询、法律量刑建议、企业社会责任评估等需要确保判断标准一致性的场景中，开发者可以借助该数据集的评分标准匹配与覆盖度分析框架，检验并校准部署模型的伦理推理能力。教育领域可利用其100例代表性样本构建道德推理训练与测评题库，评估学生在与AI互动过程中的伦理认知发展。此外，内容审核平台能够借鉴其规范性标签分析方法，优化机器审核策略以更精准地识别潜在的有害或不当内容，从而在自动化决策中平衡效率与伦理责任。

数据集最近研究