collabllm-20q

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/aditijb/collabllm-20q

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多轮对话数据集，用于训练和评估对话系统。它包含对话中的每个提示（prompt）和相应的选择（chosen）与拒绝（rejected）回应。每个回应都有一系列评估指标，如平均长度、LLM读写平均值和标准差、奖励和奖励标准差、任务指标平均值和标准差、令牌成本平均值和标准差。评估指标还包括准确性分数、平均分数、前进聊天内容、信息增益和互动性。数据集还包含元数据，如助手和用户信息。数据集分为训练集，共有2393个示例。标签包括rlhf（强化学习人类反馈）、multiturn（多轮对话）和collabllm（协作语言模型）。

This dataset is a multi-turn dialogue dataset intended for training and evaluating dialogue systems. It includes every prompt within the dialogue, paired with their corresponding chosen and rejected responses. Each response is accompanied by a set of evaluation metrics, namely average response length, mean and standard deviation of LLM read-write scores, reward value and its standard deviation, mean and standard deviation of task-specific metrics, as well as mean and standard deviation of token costs. Additional evaluation metrics cover accuracy score, average score, forward chat content, information gain and interactivity. The dataset also contains metadata such as assistant and user profile information. The dataset is split into a training set, which consists of 2393 examples in total. The labels associated with this dataset are rlhf (Reinforcement Learning from Human Feedback), multiturn (multi-turn dialogue) and collabllm (Collaborative Large Language Model).

创建时间：

2025-05-19

原始信息汇总

数据集概述

基本信息

数据集名称: collabllm-20q
许可证: MIT
标签: rlhf, multiturn, collabllm
下载大小: 5,723,238 字节
数据集大小: 23,982,556 字节
训练集样本数: 2,880

数据结构

特征

idx: int64
prompt:
- content: string
- role: string
chosen: string
rejected: string
chosen_eval:
- length_avg: float64
- llm_rw_avg: float64
- llm_rw_std: float64
- reward: float64
- reward_std: float64
- rs:
  - 0:
    - accuracy:
      - score: float64
      - thought: string
    - average_score: float64
    - forward_chat:
      - content: string
      - role: string
    - information_gain:
      - score: float64
      - thought: string
    - interactivity:
      - score: float64
      - thought: string
  - 1:
    - accuracy:
      - score: float64
      - thought: string
    - average_score: float64
    - forward_chat:
      - content: string
      - role: string
    - information_gain:
      - airplane: int64
      - score: float64
      - thought: string
    - interactivity:
      - score: float64
      - thought: string
  - 2:
    - accuracy:
      - score: float64
      - thought: string
    - average_score: float64
    - forward_chat:
      - content: string
      - role: string
    - information_gain:
      - score: float64
      - thought: string
    - interactivity:
      - score: float64
      - thought: string
- task_metric_avg: float64
- task_metric_std: float64
- token_cost_avg: float64
- token_cost_std: float64
rejected_eval: 结构与 chosen_eval 相同
metadata:
- assistant: string
- user: string
prompt_item: string

数据配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

搜集汇总

数据集介绍

构建方式

collabllm-20q数据集通过多轮对话形式构建，采用强化学习人类反馈（RLHF）技术优化模型响应。数据集中每个样本包含用户提示、优选回答和拒绝回答，并附有详细的评估指标。评估维度涵盖回答长度、奖励分数、任务指标及交互性等，通过结构化字段记录多层次评分和思考过程，确保数据质量与丰富性。

特点

该数据集以多轮对话为核心特点，支持协作式语言模型训练。其独特之处在于精细的评估体系，不仅包含传统准确性指标，还引入信息增益、交互性等创新维度。数据结构采用嵌套式设计，完整保留对话上下文和模型推理过程，为研究者提供深度分析可能。每个样本均附带元数据，清晰标注参与角色，便于针对性研究。

使用方法

使用者可通过加载标准数据集格式直接获取训练数据，重点关注prompt-chosen-rejected三元组进行偏好学习。评估字段可作为模型表现的细粒度监督信号，其中reward和task_metric适用于奖励模型构建。多轮对话结构支持上下文感知的序列建模，metadata字段便于实施角色特定的分析策略。

背景与挑战

背景概述

collabllm-20q数据集是近年来在多轮对话与强化学习人类反馈（RLHF）领域涌现的重要资源，由专注于协作式大型语言模型研究的团队构建。该数据集以多轮对话为核心场景，通过精心设计的prompt-response结构，旨在解决复杂交互情境下语言模型响应质量评估与优化的关键问题。其特色在于整合了多维评估指标，包括信息增益、交互性和准确性等，为研究社区提供了细粒度的模型性能分析框架。数据集构建过程中采用了先进的对抗式评估方法，通过chosen-rejected样本对揭示语言模型在复杂对话中的决策边界，对推动对话式AI向更自然、更有价值的方向发展具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，多轮对话评估涉及语义连贯性、知识准确性和交互自然性等多目标优化，如何平衡这些常存在冲突的指标是核心难题；在构建技术层面，对抗式样本生成需要精确控制对话路径分歧点，确保chosen-rejected样本对具有可比性但质量差异显著，这对标注流程设计提出极高要求。此外，评估体系中的动态权重分配（如信息增益与交互性的权衡）也缺乏统一标准，导致模型优化目标存在不确定性。

常用场景

经典使用场景

在对话系统与强化学习领域，collabllm-20q数据集以其多轮对话结构和精细的评估指标，成为研究人机协作对话模型的黄金标准。该数据集通过模拟真实对话场景，记录了用户与AI助手在多轮交互中的提问与回答，特别适用于训练和评估基于人类反馈的强化学习（RLHF）模型。其独特之处在于包含了对话的接受与拒绝样本，为研究者提供了丰富的对比数据。

衍生相关工作

基于该数据集衍生的研究包括多模态对话奖励建模、动态对话策略优化等方向。部分工作扩展了其评估框架至跨语言场景，另有研究结合强化学习与课程学习，逐步提升复杂对话任务的表现。这些工作共同推动了协作式对话系统向更高智能水平发展。

数据集最近研究