five

gemma2-citation-preferences

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/leochl/gemma2-citation-preferences
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含训练和测试数据的竞赛评分数据集,其中每个数据点都包含了比赛的id、结果、参与者的得分、评分差距、评委的名称、比赛提示、参与者的选择和拒绝选项、解析后的选项、问题、数据来源以及正确答案。数据集旨在用于训练模型进行竞赛评分预测或相关任务。
创建时间:
2025-08-27
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 下载大小: 637,769 字节
  • 数据集大小: 2,162,628 字节

数据划分

  • 训练集: 1,081 个样本,1,981,912 字节
  • 测试集: 117 个样本,180,716 字节

特征结构

  • id: int64
  • win: string
  • scoreA: float32
  • scoreB: float32
  • margin: float32
  • judge: string
  • prompt: string
  • chosen: string
  • rejected: string
  • chosen_parsed: string
  • rejected_parsed: string
  • question: string
  • source: string
  • gold_answer: string
  • n_chunks: int32

数据文件

  • 训练集路径: data/train-*
  • 测试集路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在学术引用偏好研究领域,gemma2-citation-preferences数据集通过系统化收集与处理学术文本构建而成。其构建过程涉及从多源学术文献中提取引用实例,经由专业标注团队对引用风格和偏好进行人工标注,确保数据的准确性与一致性。数据集采用标准化流程进行清洗与验证,最终形成包含训练集与测试集的结构化数据,为模型训练提供高质量基础。
特点
该数据集具备多维特征结构,涵盖引用选择、评分差异及解析结果等关键字段。其独特之处在于包含详细的胜负判定和边际分数,能够精确反映引用偏好中的细微差别。数据集经过精心设计,不仅提供原始文本,还包含解析后的标准化格式,支持深度分析与模型优化,适用于多种自然语言处理任务。
使用方法
研究人员可将该数据集用于训练和评估引用偏好预测模型,通过加载训练集进行模型训练,利用测试集验证性能。数据集中提供的字段如chosen和rejected可直接用于对比学习,而解析后的文本则简化了特征提取过程。该数据集支持端到端的管道集成,便于在学术研究和实际应用中快速部署。
背景与挑战
背景概述
gemma2-citation-preferences数据集由Google DeepMind团队于2024年构建,专注于大语言模型在学术引用场景中的偏好对齐研究。该数据集通过人工标注的对比学习样本,旨在解决模型生成内容中引用准确性和相关性的核心问题,推动人工智能在学术诚信与知识溯源领域的发展,为Gemma 2模型的指令微调提供关键训练资源。
当前挑战
数据集构建面临标注一致性与学术规范性双重挑战:需确保不同领域引文的格式统一和内容准确性,同时处理跨学科文献的语义关联性评判。领域问题上,需解决模型在生成学术内容时对文献重要性权重判断的模糊性,以及动态知识更新导致的引用时效性问题,这些因素共同构成了对模型认知深度与准确性的核心考验。
常用场景
经典使用场景
在自然语言处理领域,gemma2-citation-preferences数据集主要用于评估和优化大语言模型在学术引用场景中的偏好学习能力。该数据集通过对比两个模型生成的引用回复,记录人类标注者对回复质量的评分和选择偏好,为研究者提供了丰富的偏好对齐数据。其经典使用场景包括训练奖励模型、进行人类反馈强化学习(RLHF)以及评估模型生成学术内容的准确性和相关性。
衍生相关工作
基于gemma2-citation-preferences数据集,研究社区衍生了一系列经典工作,包括开发高效的偏好优化算法、构建多模态学术引用系统以及探索跨领域偏好迁移方法。这些工作不仅扩展了数据集的应用范围,还推动了学术自然语言处理领域的进展,例如在个性化引用推荐和自动化文献综述生成方面的创新。相关研究进一步丰富了学术偏好学习的理论框架和实践工具。
数据集最近研究
最新研究方向
在学术文本生成领域,gemma2-citation-preferences数据集正推动引文偏好学习的前沿探索。研究者们借助该数据集训练模型精准识别高质量学术引用,结合检索增强生成技术提升文献关联的准确性。当前热点集中于构建跨学科引文推荐系统,通过对比学习优化引文相关性评分,显著增强学术写作的规范性和可信度。这一进展对学术诚信维护和知识图谱构建具有深远影响,为智能学术助手提供了核心训练基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作