five

shachardon/ShareLM

收藏
Hugging Face2024-05-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shachardon/ShareLM
下载链接
链接失效反馈
官方服务:
资源简介:
ShareLM数据集收集并分享了人类与模型之间的交互数据,格式统一,来源于不同的LLMs和平台。数据集的目标是为开源社区提供一个不断增长的对话数据集。数据集包含对话的唯一ID、对话内容、数据来源、使用的模型名称、用户ID、时间戳、对话元数据(如评分、对话标题等)以及用户元数据(如年龄、位置等)。

ShareLM数据集收集并分享了人类与模型之间的交互数据,格式统一,来源于不同的LLMs和平台。数据集的目标是为开源社区提供一个不断增长的对话数据集。数据集包含对话的唯一ID、对话内容、数据来源、使用的模型名称、用户ID、时间戳、对话元数据(如评分、对话标题等)以及用户元数据(如年龄、位置等)。
提供机构:
shachardon
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 英语
  • 数据集大小: 1M<n<10M

数据集结构

特征信息

  • conversation_id: 字符串类型,对话的唯一标识符
  • conversation: 列表类型,包含对话内容和角色
    • content: 字符串类型,对话内容
    • role: 字符串类型,对话角色
  • model_name: 字符串类型,使用的模型名称
  • user_id: 字符串类型,用户唯一标识符
  • timestamp: 字符串类型,对话时间戳
  • source: 字符串类型,数据来源
  • user_metadata: 结构类型,用户元数据
    • location: 字符串类型,用户位置
    • age: 字符串类型,用户年龄
    • gender: 字符串类型,用户性别
  • conversation_metadata: 结构类型,对话元数据
    • rate: 字符串类型,对话评分
    • language: 字符串类型,对话语言
    • redacted: 字符串类型,是否被编辑
    • toxic: 字符串类型,是否包含有害内容
    • title: 字符串类型,对话标题
    • custom_instruction: 字符串类型,自定义指令
    • status: 字符串类型,对话状态
    • redacted: 字符串类型,是否被编辑(重复)

配置信息

  • config_name: default
  • data_files:
    • split: train
    • path:
      • "share_lm_formatted.json"
      • "collective_cognition_formatted.json"
      • "hh_rlhf_formatted_part0.json"
      • "hh_rlhf_formatted_part50000.json"
      • "hh_rlhf_formatted_part100000.json"
      • "hh_rlhf_formatted_part200000.json"
      • "hh_rlhf_formatted_part250000.json"
      • "hh_rlhf_formatted_part300000.json"
      • "babi_formatted.json"
      • "self_feeding_formatted.json"

数据集格式

  • conversation_id: 对话的唯一标识符
  • conversation: 包含所有用户和模型响应的列表
  • source: 数据来源
  • model_name: 对话中使用的模型名称
  • user_id: 用户唯一标识符
  • timestamp: 对话时间戳
  • conversation metadata: 对话的附加信息(如评分、对话标题等)
  • user_metadata: 用户的统计信息(如年龄、位置等)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作