five

Anonymousxx/preference-dissection

收藏
Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Anonymousxx/preference-dissection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于lmsys/chatbot_arena_conversations,经过过滤和场景分类后,包含了5240个样本。数据集的特征包括查询、场景分类、响应内容、GPT-4-Turbo参考响应、用户意图清晰度、情感表达、明确约束、主观立场、错误或偏见、偏好标签等。此外,数据集还包含了基本响应属性、错误检测和查询特定属性的注释。统计信息展示了满足特定查询前提条件的样本数量以及各属性的平均得分或计数。

该数据集基于lmsys/chatbot_arena_conversations,经过过滤和场景分类后,包含了5240个样本。数据集的特征包括查询、场景分类、响应内容、GPT-4-Turbo参考响应、用户意图清晰度、情感表达、明确约束、主观立场、错误或偏见、偏好标签等。此外,数据集还包含了基本响应属性、错误检测和查询特定属性的注释。统计信息展示了满足特定查询前提条件的样本数量以及各属性的平均得分或计数。
提供机构:
Anonymousxx
原始信息汇总

数据集概述

数据集信息

  • 特征列表
    • query:用户查询,数据类型为字符串。
    • scenario_auto-j:由Auto-J分类器分类的场景,数据类型为字符串。
    • scenario_group:从Auto-J场景合并的10个新场景之一,包括一个Unsafe Query场景,数据类型为字符串。
    • response_1response_2:响应内容,包含以下子字段:
      • content:文本内容,数据类型为字符串。
      • model:生成该响应的模型,数据类型为字符串。
      • num_words:响应的单词数量,数据类型为int64。
    • gpt-4-turbo_reference:由GPT-4-Turbo生成的参考响应,数据类型为字符串。
    • clear intent:用户意图是否清晰表达,数据类型为字符串。
    • explicitly express feelings:用户是否明确表达情感,数据类型为字符串。
    • explicit constraintsexplicit subjective stancesexplicit mistakes or biases:包含查询中所有明确约束、主观立场、错误或偏见的列表,数据类型为字符串序列。
    • preference_labels:每个评判者(人类或LLM)的偏好标签,指示在成对响应中哪个更受偏好,包含多个模型的偏好标签,数据类型为字符串。
    • basic_response_1basic_response_2:响应的基本属性评分,包含多个属性的评分,数据类型为int64。
    • errors_response_1errors_response_2:响应中检测到的错误,包含是否适用和错误列表,错误列表包含简要描述、严重性和类型,数据类型为字符串。
    • query-specific_response_1query-specific_response_2:查询特定属性的注释结果,包含多个属性的评分或分类,数据类型为int64或字符串序列。

数据集拆分

  • 训练集
    • 名称:train
    • 字节数:27617371
    • 样本数:5240

数据集大小

  • 下载大小:13124269
  • 数据集大小:27617371

配置

  • 默认配置
    • 数据文件:
      • 拆分:train
      • 路径:data/train-*

语言

  • 英语(en)

数据集名称

  • Preference Dissection

许可证

  • CC-BY-NC-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作