shachardon/ShareLM
收藏Hugging Face2024-05-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shachardon/ShareLM
下载链接
链接失效反馈官方服务:
资源简介:
ShareLM数据集收集并分享了人类与模型之间的交互数据,格式统一,来源于不同的LLMs和平台。数据集的目标是为开源社区提供一个不断增长的对话数据集。数据集包含对话的唯一ID、对话内容、数据来源、使用的模型名称、用户ID、时间戳、对话元数据(如评分、对话标题等)以及用户元数据(如年龄、位置等)。
ShareLM数据集收集并分享了人类与模型之间的交互数据,格式统一,来源于不同的LLMs和平台。数据集的目标是为开源社区提供一个不断增长的对话数据集。数据集包含对话的唯一ID、对话内容、数据来源、使用的模型名称、用户ID、时间戳、对话元数据(如评分、对话标题等)以及用户元数据(如年龄、位置等)。
提供机构:
shachardon
原始信息汇总
数据集概述
数据集基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 语言: 英语
- 数据集大小: 1M<n<10M
数据集结构
特征信息
- conversation_id: 字符串类型,对话的唯一标识符
- conversation: 列表类型,包含对话内容和角色
- content: 字符串类型,对话内容
- role: 字符串类型,对话角色
- model_name: 字符串类型,使用的模型名称
- user_id: 字符串类型,用户唯一标识符
- timestamp: 字符串类型,对话时间戳
- source: 字符串类型,数据来源
- user_metadata: 结构类型,用户元数据
- location: 字符串类型,用户位置
- age: 字符串类型,用户年龄
- gender: 字符串类型,用户性别
- conversation_metadata: 结构类型,对话元数据
- rate: 字符串类型,对话评分
- language: 字符串类型,对话语言
- redacted: 字符串类型,是否被编辑
- toxic: 字符串类型,是否包含有害内容
- title: 字符串类型,对话标题
- custom_instruction: 字符串类型,自定义指令
- status: 字符串类型,对话状态
- redacted: 字符串类型,是否被编辑(重复)
配置信息
- config_name: default
- data_files:
- split: train
- path:
- "share_lm_formatted.json"
- "collective_cognition_formatted.json"
- "hh_rlhf_formatted_part0.json"
- "hh_rlhf_formatted_part50000.json"
- "hh_rlhf_formatted_part100000.json"
- "hh_rlhf_formatted_part200000.json"
- "hh_rlhf_formatted_part250000.json"
- "hh_rlhf_formatted_part300000.json"
- "babi_formatted.json"
- "self_feeding_formatted.json"
数据集格式
- conversation_id: 对话的唯一标识符
- conversation: 包含所有用户和模型响应的列表
- source: 数据来源
- model_name: 对话中使用的模型名称
- user_id: 用户唯一标识符
- timestamp: 对话时间戳
- conversation metadata: 对话的附加信息(如评分、对话标题等)
- user_metadata: 用户的统计信息(如年龄、位置等)



