gemma2-citation-preferences

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/leochl/gemma2-citation-preferences

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含训练和测试数据的竞赛评分数据集，其中每个数据点都包含了比赛的id、结果、参与者的得分、评分差距、评委的名称、比赛提示、参与者的选择和拒绝选项、解析后的选项、问题、数据来源以及正确答案。数据集旨在用于训练模型进行竞赛评分预测或相关任务。

This is a competition scoring dataset containing both training and testing data. Each data point includes the competition ID, competition result, participants' scores, score gap, judge names, competition prompt, participants' selected and rejected options, parsed options, question, data source, and correct answer. This dataset is designed for training models to conduct competition scoring prediction or other related tasks.

创建时间：

2025-08-27

原始信息汇总

数据集概述

基本信息

许可证: MIT
下载大小: 637,769 字节
数据集大小: 2,162,628 字节

数据划分

训练集: 1,081 个样本，1,981,912 字节
测试集: 117 个样本，180,716 字节

特征结构

id: int64
win: string
scoreA: float32
scoreB: float32
margin: float32
judge: string
prompt: string
chosen: string
rejected: string
chosen_parsed: string
rejected_parsed: string
question: string
source: string
gold_answer: string
n_chunks: int32

数据文件

训练集路径: data/train-*
测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在学术引用偏好研究领域，gemma2-citation-preferences数据集通过系统化收集与处理学术文本构建而成。其构建过程涉及从多源学术文献中提取引用实例，经由专业标注团队对引用风格和偏好进行人工标注，确保数据的准确性与一致性。数据集采用标准化流程进行清洗与验证，最终形成包含训练集与测试集的结构化数据，为模型训练提供高质量基础。

特点

该数据集具备多维特征结构，涵盖引用选择、评分差异及解析结果等关键字段。其独特之处在于包含详细的胜负判定和边际分数，能够精确反映引用偏好中的细微差别。数据集经过精心设计，不仅提供原始文本，还包含解析后的标准化格式，支持深度分析与模型优化，适用于多种自然语言处理任务。

使用方法

研究人员可将该数据集用于训练和评估引用偏好预测模型，通过加载训练集进行模型训练，利用测试集验证性能。数据集中提供的字段如chosen和rejected可直接用于对比学习，而解析后的文本则简化了特征提取过程。该数据集支持端到端的管道集成，便于在学术研究和实际应用中快速部署。

背景与挑战

背景概述

gemma2-citation-preferences数据集由Google DeepMind团队于2024年构建，专注于大语言模型在学术引用场景中的偏好对齐研究。该数据集通过人工标注的对比学习样本，旨在解决模型生成内容中引用准确性和相关性的核心问题，推动人工智能在学术诚信与知识溯源领域的发展，为Gemma 2模型的指令微调提供关键训练资源。

当前挑战

数据集构建面临标注一致性与学术规范性双重挑战：需确保不同领域引文的格式统一和内容准确性，同时处理跨学科文献的语义关联性评判。领域问题上，需解决模型在生成学术内容时对文献重要性权重判断的模糊性，以及动态知识更新导致的引用时效性问题，这些因素共同构成了对模型认知深度与准确性的核心考验。

常用场景

经典使用场景

在自然语言处理领域，gemma2-citation-preferences数据集主要用于评估和优化大语言模型在学术引用场景中的偏好学习能力。该数据集通过对比两个模型生成的引用回复，记录人类标注者对回复质量的评分和选择偏好，为研究者提供了丰富的偏好对齐数据。其经典使用场景包括训练奖励模型、进行人类反馈强化学习（RLHF）以及评估模型生成学术内容的准确性和相关性。

衍生相关工作

基于gemma2-citation-preferences数据集，研究社区衍生了一系列经典工作，包括开发高效的偏好优化算法、构建多模态学术引用系统以及探索跨领域偏好迁移方法。这些工作不仅扩展了数据集的应用范围，还推动了学术自然语言处理领域的进展，例如在个性化引用推荐和自动化文献综述生成方面的创新。相关研究进一步丰富了学术偏好学习的理论框架和实践工具。

数据集最近研究