pharaouk/UltraInteract_pair
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/UltraInteract_pair
下载链接
链接失效反馈官方服务:
资源简介:
UltraInteract是一个大规模、高质量的对齐数据集,专门设计用于复杂推理任务。每个指令包含一个偏好树,该树由多样化的规划策略推理链、与环境的多轮交互轨迹以及用于偏好学习的成对数据组成。数据集的结构包括任务类型、数据集来源、轨迹、选择的答案和拒绝的答案等字段。数据集包含86k个指令、286k个正确答案和219k对数据。
UltraInteract是一个大规模、高质量的对齐数据集,专门设计用于复杂推理任务。每个指令包含一个偏好树,该树由多样化的规划策略推理链、与环境的多轮交互轨迹以及用于偏好学习的成对数据组成。数据集的结构包括任务类型、数据集来源、轨迹、选择的答案和拒绝的答案等字段。数据集包含86k个指令、286k个正确答案和219k对数据。
提供机构:
pharaouk
原始信息汇总
数据集概述
数据集名称
- 名称: UltraInteract_pair
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: ultrainteract_preference_learning.json
数据集特征
- 特征名称 及 数据类型:
- task: string
- dataset: string
- trajectory: list
- from: string
- value: string
- chosen: string
- rejected: string
- id: string
- parent_id: string
数据集分割
- 分割名称: train
- 统计信息:
- num_bytes: 1144517
- num_examples: 219522
数据集大小
- 下载大小: 1144517
- 数据集大小: 1144517
数据集格式
- JSONC格式示例: jsonc { "id": "...", "parent_id": "...", "task": "Math_PoT", "dataset": "MATH", "trajectory": [ { "from": "user", "value": "..." }, ... ], "chosen": "...", "rejected": "..." }
数据集用途
- 用途: 用于复杂推理任务的偏好学习,包括推理链、多轮交互轨迹和成对数据。
数据集结构
- 结构描述: 每个指令包含一个偏好树,树中的每个动作作为一个节点,轨迹是从根到叶的路径,包含一系列动作。
数据集示例
- 示例描述: 展示了一个两轮的交互轨迹,其中演员模型生成逐步推理链,环境提供观察,批评模型提供文本批评。
数据集统计
- 统计信息: 包含86k指令,286k正确答案,219k对。



