five

CollectiveCognition/chats-data-2023-10-16

收藏
Hugging Face2023-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CollectiveCognition/chats-data-2023-10-16
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为集体认知ChatGPT对话,收集了用户与ChatGPT模型之间的聊天记录。这些对话由用户在集体认知网站上分享。数据集主要语言为英语,但可能包含其他语言的聊天记录。每个数据实例包括一个聊天记录及其相关元数据,如标题、模型名称、是否使用自定义指令以及消息内容和发送者角色。该数据集支持语言模型微调、对话理解、情感分析和主题建模等多种任务,旨在为研究者和分析人员提供用户与语言模型交互的深入见解。

该数据集名为集体认知ChatGPT对话,收集了用户与ChatGPT模型之间的聊天记录。这些对话由用户在集体认知网站上分享。数据集主要语言为英语,但可能包含其他语言的聊天记录。每个数据实例包括一个聊天记录及其相关元数据,如标题、模型名称、是否使用自定义指令以及消息内容和发送者角色。该数据集支持语言模型微调、对话理解、情感分析和主题建模等多种任务,旨在为研究者和分析人员提供用户与语言模型交互的深入见解。
提供机构:
CollectiveCognition
原始信息汇总

数据集卡片 "Collective Cognition ChatGPT Conversations"

数据集描述

数据集摘要

"Collective Cognition ChatGPT Conversations" 数据集是用户与 ChatGPT 模型之间聊天记录的集合。这些对话由用户在 "Collective Cognition" 网站上分享。该数据集提供了用户与语言模型交互的洞察,可用于多种目的,包括训练、研究和分析。

支持的任务

  • 语言模型微调:通过行为克隆和知识灌输进行训练。
  • 对话理解:分析对话的流程和结构。
  • 情感分析:理解对话中的情感或情绪。
  • 主题建模:确定聊天中讨论的主题。

语言

数据集的主要语言是英语,但用户分享的任何语言的聊天都可能出现在数据集中。

数据集结构

数据实例

一个典型的数据实例包括一个带有标题、模型名称、是否使用自定义指令(如果使用则当前不包括)以及发送者角色("human" 或 "gpt")的消息内容的聊天记录。

数据集格式符合 ShareGPT 标准。

以下是数据集中的一个示例条目,注意对话的轮次是可变的,可以是多轮或仅两轮: json { "title": "Interest Formulas Clarification", "model_name": "GPT-4", "custom_instruction": false, "conversations": [ { "from": "human", "value": "Is this correct? The formula for calculating simple interest (also known as Compound Interest) is given by I = P * r^n, where

  • I represents the final amount of money, also called principal or capital. This value will keep on increasing at a fixed rate per unit time denoted by r and number of times denoted by n. The initial investment represented by P, while the percentage rate expressed as an annual fraction, i.e., p/100 representing the percentage to be paid annually. In other words itu2019s how much you earn in one year out of your original $100 invested with a 5% annual return compounded monthly." }, { "from": "assistant", "value": "Im sorry, but there seems to be some confusion in your question. The formula given and the definitions of the variables seem to be mixed up between simple interest and compound interest. Let me clarify:
  1. Simple Interest: This type of interest is calculated only on the original amount (principal) that you invested or loaned. The formula for simple interest is I = PRT, where:

    • I is the interest
    • P is the principal amount (initial investment)
    • R is the annual interest rate (in decimal form, so a 5% rate would be 0.05)
    • T is the time the money is invested or borrowed for, in years.
  2. Compound Interest: This type of interest is calculated on the initial principal and also on the accumulated interest of previous periods of a deposit or loan. The formula for compound interest is A = P(1 + r/n)^(nt), where:

    • A is the amount of money accumulated after n years, including interest.
    • P is the principal amount (the initial amount of money)
    • r is the annual interest rate (in decimal form, so a 5% rate would be 0.05)
    • n is the number of times that interest is compounded per year
    • t is the number of years the money is invested or borrowed for.

In both cases, the interest rate is usually expressed as an annual rate, regardless of the length of the term." } ] }

数据分割

目前,数据集没有被分割成特定的部分(训练、测试、验证)。

数据集创建

策划理由

该数据集是为了提供用户与语言模型交互的洞察,并为更广泛的 NLP 社区资源做出贡献而策划的。

源数据

数据源自 "Collective Cognition" 网站上的用户贡献。

个人和敏感信息

所有上传到 Collective Cognition 网站的聊天记录都是公开的,并定期作为新数据集上传。如果您希望删除您的聊天记录,请发送电子邮件至 admin@collectivecognition.ai

使用数据的注意事项

数据集的社会影响

该数据集提供了人类与 AI 模型交互动态的一瞥。它对于研究人类-AI 协作的研究人员可能非常有用。

偏见的讨论

数据集中可能存在基于贡献聊天记录的用户类型和与 ChatGPT 讨论的主题的偏见,特别是围绕用户最常使用 ChatGPT 的方面。

其他已知限制

数据集依赖于用户的自愿贡献。因此,它可能无法代表用户与 ChatGPT 的所有交互范围。

附加信息

许可信息

MIT

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作