five

CollectiveCognition/chats-data-2023-09-27

收藏
Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CollectiveCognition/chats-data-2023-09-27
下载链接
链接失效反馈
官方服务:
资源简介:
‘集体认知ChatGPT对话’数据集是一个收集用户与ChatGPT模型之间聊天记录的集合,来源于‘集体认知’网站。它主要使用英语,但也可能包含其他语言的聊天记录。该数据集用于语言模型微调、对话理解、情感分析和主题建模等任务。每个数据实例包括一个聊天记录,包含标题、模型名称、自定义指令(如果有)以及带有发送者角色的消息内容。目前,该数据集尚未划分为训练、测试或验证集。它被策划出来以提供用户与语言模型交互的洞察,并支持自然语言处理社区。

The Collective Cognition ChatGPT Conversations dataset is a collection of chat logs between users and the ChatGPT model, sourced from the Collective Cognition website. It is primarily in English but may include chats in other languages. The dataset is used for tasks such as language model finetuning, dialogue understanding, sentiment analysis, and topic modeling. Each data instance includes a chat log with details like title, model name, custom instructions (if any), and the content of the message with the senders role. The dataset is not currently split into train, test, or validation sets. It is curated to provide insights into user interactions with language models and to support the NLP community.
提供机构:
CollectiveCognition
原始信息汇总

数据集卡片 "Collective Cognition ChatGPT Conversations"

数据集描述

数据集摘要

"Collective Cognition ChatGPT Conversations" 数据集是用户与 ChatGPT 模型之间聊天记录的集合。这些对话由用户在 "Collective Cognition" 网站上共享。该数据集提供了用户与语言模型交互的洞察,可用于多种目的,包括训练、研究和分析。

支持的任务

  • 语言模型微调:通过行为克隆和知识灌输进行训练。
  • 对话理解:分析对话的流程和结构。
  • 情感分析:理解对话中的情感或情绪。
  • 主题建模:确定聊天中讨论的主题。

语言

数据集的主要语言是英语,但由于用户分享更多聊天记录,任何语言的聊天都可能出现在数据集中。

数据集结构

数据实例

典型的数据实例包括一个带有标题、模型名称、是否使用自定义指令(如果使用则当前不包括)以及发送者角色("human" 或 "gpt")的消息内容的聊天记录。

数据集格式符合 ShareGPT 标准。

以下是数据集中的一个示例条目,注意对话轮次是可变的,可以是多轮或仅有两轮: json { "title": "Interest Formulas Clarification", "model_name": "GPT-4", "custom_instruction": false, "conversations": [ { "from": "human", "value": "Is this correct? The formula for calculating simple interest (also known as Compound Interest) is given by I = P * r^n, where

  • I represents the final amount of money, also called principal or capital. This value will keep on increasing at a fixed rate per unit time denoted by r and number of times denoted by n. The initial investment represented by P, while the percentage rate expressed as an annual fraction, i.e., p/100 representing the percentage to be paid annually. In other words itu2019s how much you earn in one year out of your original $100 invested with a 5% annual return compounded monthly." }, { "from": "assistant", "value": "Im sorry, but there seems to be some confusion in your question. The formula given and the definitions of the variables seem to be mixed up between simple interest and compound interest. Let me clarify:
  1. Simple Interest: This type of interest is calculated only on the original amount (principal) that you invested or loaned. The formula for simple interest is I = PRT, where:

    • I is the interest
    • P is the principal amount (initial investment)
    • R is the annual interest rate (in decimal form, so a 5% rate would be 0.05)
    • T is the time the money is invested or borrowed for, in years.
  2. Compound Interest: This type of interest is calculated on the initial principal and also on the accumulated interest of previous periods of a deposit or loan. The formula for compound interest is A = P(1 + r/n)^(nt), where:

    • A is the amount of money accumulated after n years, including interest.
    • P is the principal amount (the initial amount of money)
    • r is the annual interest rate (in decimal form, so a 5% rate would be 0.05)
    • n is the number of times that interest is compounded per year
    • t is the number of years the money is invested or borrowed for.

In both cases, the interest rate is usually expressed as an annual rate, regardless of the length of the term." } ] }

数据分割

目前,数据集未被分割成特定的分割(训练、测试、验证)。

数据集创建

策划理由

该数据集是为了提供用户与语言模型交互的洞察,并为更广泛的 NLP 社区资源做出贡献而策划的。

源数据

数据来源于 "Collective Cognition" 网站上的用户贡献。

个人和敏感信息

所有上传到 Collective Cognition 网站的聊天记录都是公开的,并定期作为新数据集上传。如果您希望删除您的聊天记录,请发送电子邮件至 admin@collectivecognition.ai

使用数据的注意事项

数据集的社会影响

该数据集提供了人类与 AI 模型交互动态的一瞥。它对于研究人类-AI 协作的研究人员可能非常有用。

偏见的讨论

数据集中可能存在基于贡献聊天记录的用户类型和与 ChatGPT 讨论的主题的偏见,特别是围绕用户最常使用 ChatGPT 的方面。

其他已知限制

数据集依赖于用户的自愿贡献。因此,它可能无法代表用户与 ChatGPT 的所有交互范围。

附加信息

许可信息

MIT

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能交互研究领域,CollectiveCognition/chats-data-2023-09-27数据集通过用户自愿分享的方式构建而成。该数据集源自Collective Cognition网站上的公开聊天记录,用户主动上传与ChatGPT模型的对话日志,涵盖了多样化的主题与交互场景。数据以ShareGPT标准格式进行结构化整理,每条记录包含对话标题、模型名称及多轮次的人类与助手消息,确保了数据的规范性与可处理性。
特点
该数据集的核心特点在于其真实反映了用户与大型语言模型之间的自然交互动态。对话内容覆盖广泛领域,从学术探讨到日常咨询,展现了语言模型在实际应用中的多样性与复杂性。数据实例以JSON格式呈现,清晰标注了发言者角色与消息内容,便于进行对话流分析、情感识别或主题建模等研究任务。
使用方法
研究者可利用该数据集进行语言模型的微调训练,特别是通过行为克隆方法优化对话生成能力。在对话理解方面,数据集支持对交互结构、话题演进及语言风格的深入分析。此外,它也为情感分析、知识灌输及人机协作研究提供了丰富的实证材料,用户可通过HuggingFace平台直接加载数据,并依据MIT许可证在学术与工业场景中自由使用。
背景与挑战
背景概述
在人工智能与自然语言处理领域,理解人类与大型语言模型之间的交互模式已成为一项关键研究课题。CollectiveCognition/chats-data-2023-09-27数据集由Collective Cognition平台于2023年9月创建,其核心目标在于系统收集并公开用户与ChatGPT模型之间的真实对话记录。该数据集旨在为语言模型的微调、对话结构分析、情感识别及主题建模等多类任务提供实证基础,从而推动人机协作与对话系统的深入研究。通过汇聚众包形式的用户贡献,它不仅揭示了语言模型在实际应用中的交互特征,也为评估模型行为与用户需求之间的匹配度提供了宝贵资源。
当前挑战
该数据集所针对的领域问题在于如何精准捕捉并分析人类与语言模型之间复杂多变的对话动态,其挑战体现在对话质量的异质性、话题分布的偏倚性以及交互深度的不一致性。在构建过程中,数据采集依赖于用户的主动分享,这可能导致样本覆盖范围有限,无法全面反映不同用户群体、文化背景及专业领域的交互全貌。此外,数据中可能隐含用户选择性分享带来的主题集中性偏差,以及对话中敏感信息处理的伦理考量,这些因素均对数据集的代表性与泛化能力构成潜在制约。
常用场景
经典使用场景
在自然语言处理领域,对话数据集常被用于模型微调与评估。CollectiveCognition/chats-data-2023-09-27数据集汇集了用户与ChatGPT的真实交互记录,其经典使用场景在于为语言模型的行为克隆与知识注入提供训练样本。研究者通过分析这些多轮对话的结构与内容,能够优化模型的对话生成能力,使其更贴近人类交流模式,从而在开放域对话系统中实现更自然、连贯的响应生成。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在对话质量评估与模型对齐研究领域。例如,部分研究利用其构建基准测试,以衡量不同模型在复杂对话任务中的表现;另一些工作则从中提取人机协作模式,用于训练奖励模型或设计强化学习框架。这些衍生成果不仅丰富了对话人工智能的技术谱系,也为后续大规模对话数据集的构建与标准化提供了方法论参考。
数据集最近研究
最新研究方向
在人工智能与人类交互研究领域,CollectiveCognition/chats-data-2023-09-27数据集作为大规模真实对话的集合,正推动着前沿探索。该数据集聚焦于用户与ChatGPT模型的互动日志,为语言模型微调、对话理解及情感分析等任务提供了丰富资源。当前研究热点集中于利用此类数据优化模型的人类对齐性能,通过行为克隆与知识注入技术提升AI响应的准确性与自然度。同时,学者们借助主题建模方法深入挖掘对话中的社会文化趋势,分析用户偏好与潜在偏见,以促进AI伦理与公平性讨论。这一数据集的开放共享不仅加速了人机协作机制的理论创新,也为实际应用如个性化助手开发奠定了实证基础,在自然语言处理社区中具有重要的参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作