collabllm-20q-filtered-reward

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/aditijb/collabllm-20q-filtered-reward

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个对话系统性能评估数据集，包含了对话的索引、提示内容、选择的回应、被拒绝的回应以及详细的评估指标。评估指标涵盖了文本长度、语言模型读写指标、奖励值、任务指标和代币消耗等多个方面。数据集还包括了训练集和测试集。

创建时间：

2025-05-30

原始信息汇总

数据集概述

基本信息

许可证: MIT
数据集名称: collabllm-20q-filtered-reward
下载大小: 2,001,473 字节
数据集大小: 7,470,369 字节

数据集结构

特征

idx: int64，索引
prompt: 列表，包含以下字段：
- content: string，内容
- role: string，角色
chosen: string，选择的回答
rejected: string，拒绝的回答
chosen_eval: 结构体，包含以下字段：
- length_avg: float64，平均长度
- llm_rw_avg: float64，LLM奖励平均值
- llm_rw_std: float64，LLM奖励标准差
- reward: float64，奖励
- reward_std: float64，奖励标准差
- rs: 结构体，包含以下字段：
  - 0,1,2: 结构体，包含以下字段：
    - accuracy: 结构体，包含以下字段：
      - score: float64，分数
      - thought: string，思考
    - average_score: float64，平均分数
    - forward_chat: 列表，包含以下字段：
      - content: string，内容
      - role: string，角色
    - information_gain: 结构体，包含以下字段：
      - score: float64，分数
      - thought: string，思考
    - interactivity: 结构体，包含以下字段：
      - score: float64，分数
      - thought: string，思考
- task_metric_avg: float64，任务指标平均值
- task_metric_std: float64，任务指标标准差
- token_cost_avg: float64，令牌成本平均值
- token_cost_std: float64，令牌成本标准差
rejected_eval: 结构体，字段与 chosen_eval 相同
metadata: 结构体，包含以下字段：
- assistant: string，助手
- user: string，用户
prompt_item: string，提示项

数据划分

train:
- 样本数量: 793
- 字节数: 5,231,516
test:
- 样本数量: 341
- 字节数: 2,238,853

配置文件

config_name: default
data_files:
- train: data/train-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，collabllm-20q-filtered-reward数据集通过精心设计的对比学习框架构建而成。该数据集采用多轮对话交互模式，每个样本包含用户提示(prompt)、优选回答(chosen)和劣选回答(rejected)三元组，并辅以精细设计的评估指标结构。数据采集过程融合了大规模语言模型的生成能力和人工筛选机制，通过自动化评估体系对回答质量进行多维度量化，包括准确性、信息增益和交互性等核心指标。

特点

该数据集最显著的特征在于其多层次的质量评估体系。每个对话样本不仅包含原始文本数据，还集成了包含长度统计、奖励分数和任务指标在内的结构化评估结果。特别值得注意的是，评估体系采用三维度评分机制（0-2），每个维度均包含准确性评分、思维链分析和前向对话记录。这种设计为研究者提供了对话质量细粒度分析的独特视角，使得数据集兼具对话生成和评估的双重价值。

使用方法

该数据集主要适用于对话系统的对比学习和强化学习研究场景。使用者可通过加载标准数据分割（train/test）获取基础对话样本，重点分析chosen与rejected回答间的差异特征。进阶研究可深入挖掘eval结构中的多维评估数据，利用llm_rw_avg等指标优化奖励模型，或基于task_metric构建定制化的对话评估体系。数据处理时需注意prompt字段的list结构包含role-content配对信息，这为建模对话上下文提供了必要支持。

背景与挑战

背景概述

collabllm-20q-filtered-reward数据集是近年来为推进大型语言模型（LLM）在协作对话场景中的优化而构建的高质量数据集。该数据集由前沿研究团队开发，聚焦于通过强化学习框架提升语言模型在多轮对话中的表现。其核心研究问题在于如何通过精确的奖励机制设计，有效区分高质量与低质量的模型响应，从而优化模型的对话策略。数据集的构建体现了对对话流畅性、信息增益及交互性等多维度的综合考量，为对话系统的奖励模型训练提供了重要基准。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的挑战在于如何准确量化对话质量，尤其是在多轮交互中平衡响应准确性、信息丰富度与用户参与度等复杂指标；构建过程中的挑战则涉及大规模对话数据的清洗与标注，需确保评估指标（如llm_rw_avg、task_metric_avg等）的可靠性与一致性，同时解决不同评估维度间的潜在冲突。此外，降低标注成本与保持数据多样性之间的张力也是关键难点。

常用场景

经典使用场景

在对话系统与强化学习交叉领域，collabllm-20q-filtered-reward数据集通过精心设计的对话交互记录与多维度评估指标，为研究者提供了分析语言模型在协作任务中表现差异的基准。其独特的chosen/rejected响应对比结构，配合细粒度的奖励信号评估，使得该数据集成为优化对话策略、提升多轮交互质量的理想实验平台。

实际应用

在实际应用中，该数据集支撑了智能客服系统的对话策略优化，通过对比分析优选与劣质响应模式，显著提升了服务满意度。教育领域的自适应辅导系统利用其交互性评估指标，能够动态调整教学策略。在虚拟助手开发中，数据集提供的多维度奖励信号成为训练更符合人类偏好的对话模型的关键依据。

衍生相关工作

基于该数据集衍生的经典研究包括对话策略优化框架CoLLM，其创新性地将多智能体协作思想引入语言模型微调。后续工作如RewardShaping-LLM通过重新设计奖励函数结构，在保持原始数据优势的同时提升了训练效率。近期发表的DialEval基准测试体系，正是受该数据集多维评估指标的启发而构建的通用对话评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集