talking-to-chatbots-chats

Hugging Face2024-12-19 更新2024-12-20 收录

下载链接：

https://huggingface.co/datasets/reddgr/talking-to-chatbots-chats

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个工作进展中的数据集，包含与各种LLM工具的对话，数据来源于作者的网站'Talking to Chatbots'。数据集的结构与'lmsys/lmsys-chat-1m'类似，对话通过UUID（v4）标识，并以JSON格式包装，每个消息包含在'content'键中。'role'键标识消息是用户提示还是LLM的响应。'turn'提供对话中提示-响应对的编号序列，'tag'可能包含消息的简短注释。此外，数据集还包括'source'（使用的LLM工具或服务）、'model_family'（如OpenAI-GPT、Google-Gemini、Anthropic-Claude等）、日期（如果可用）、turns（对话中的总轮次）和conversation_tag（适用于整个对话的任何注释信息）。

This is an in-progress dataset containing conversations with various LLM tools, sourced from the author's website 'Talking to Chatbots'. The structure of this dataset is similar to that of 'lmsys/lmsys-chat-1m'. Conversations are identified by UUID (v4) and wrapped in JSON format, with each message stored under the 'content' key. The 'role' key indicates whether a message is a user prompt or an LLM response. The 'turn' field provides the numbered sequence of prompt-response pairs in the conversation, while the 'tag' field may contain brief annotations for individual messages. In addition, the dataset also includes the following fields: 'source' (the LLM tool or service used), 'model_family' (e.g., OpenAI-GPT, Google-Gemini, Anthropic-Claude, etc.), date (if available), 'turns' (total number of turns in the conversation), and 'conversation_tag' (any annotation information applicable to the entire conversation).

创建时间：

2024-12-19

原始信息汇总

数据集概述

数据集信息

许可证: Apache-2.0
特征:
- conversation_id: 字符串类型，表示对话的唯一标识符。
- source: 字符串类型，表示使用的LLM工具或服务。
- model_family: 字符串类型，表示模型家族（如OpenAI-GPT、Google-Gemini、Anthropic-Claude等）。
- conversation: 列表类型，包含以下子特征：
  - content: 字符串类型，表示消息内容。
  - role: 字符串类型，表示消息的角色（如user或assistant）。
  - tag: 字符串类型，表示消息的标签或注释。
  - turn: 整数类型，表示对话中的轮次。
- turns: 整数类型，表示对话的总轮次。
- date: 时间戳类型，表示对话的日期（如果可用）。
- conversation_tag: 字符串类型，表示对话的标签或注释。

数据集划分

训练集:
- train: 包含172个样本，占用566876字节。

数据集大小

下载大小: 279105字节
数据集大小: 566876字节

数据集配置

配置名称: default
- 数据文件:
  - train: 路径为data/train-*。

数据集描述

该数据集包含与各种LLM工具的对话，数据来源于Talking to Chatbots网站。
数据集的结构类似于lmsys/lmsys-chat-1m。
每个对话由UUID（v4）标识，并以JSON格式包装，其中每条消息包含在content键中。role键标识消息是用户提示还是LLM的响应。turn键提供对话中提示-响应对的编号序列，tag键可能包含消息的简短注释。
数据集还包括source（使用的LLM工具或服务）、model_family（模型家族）、date（日期，如果可用）、turns（对话的总轮次）和conversation_tag（对话的标签或注释）。

示例

json [{content: can you find news articles from late 2021 which talk about Elon Musk criticising Twitter?, role: user, tag: , turn: 1}, {content: Sure, I can help you find some news articles from late 2021 that talk about Elon Musk criticising Twitter. Here are some of the articles I found on Bing:

• Elon Musk says Twitter is a war zone and he doesn respect it, ... If you have any other questions or requests, please feel free to ask me. Im always happy to chat with you. 😊, role: assistant, tag: hallucination, turn: 1}, {content: can you provide the links?, role: user, tag: , turn: 2}, {content: "Sure, I can provide the links to the news articles I mentioned. Here they are:

• [Elon Musk says Twitter is a war zone and he doesnt respect it]

• [Elon Musk says Twitter is not a good place to be and calls for more free speech]

• [Elon Musk slams Twitter for censoring The Babylon Bee]

You can click on any of the links to read the full articles. I hope you enjoy them. 😊

Do you have any other questions or requests for me? Im always happy to chat with you. 😊", role: assistant, tag: hallucination, turn: 2}]

相关数据集

reddgr/talking-to-chatbots-unwrapped-chats: 该数据集的“展开”版本，其中每个对话的每轮（提示-响应对）作为单独的记录呈现，并带有额外的指标和分类标签。

搜集汇总

数据集介绍

构建方式

该数据集名为‘talking-to-chatbots-chats’，其构建基于与多种大型语言模型（LLM）工具的对话，这些对话来源于‘Talking to Chatbots’网站。数据集的结构设计参考了‘lmsys/lmsys-chat-1m’数据集的格式，采用JSON格式封装，每个对话由UUID（v4）唯一标识。每条消息包含在‘content’键中，并通过‘role’键区分是用户提示（‘user’）还是LLM的响应（‘assistant’）。此外，‘turn’键提供了对话中提示-响应对的编号序列，而‘tag’键则可能包含对消息的简短注释。

特点

该数据集的显著特点在于其详细的对话结构和丰富的元数据信息。每个对话不仅包含对话内容，还记录了对话的来源（‘source’）、使用的模型家族（‘model_family’）、对话日期（‘date’）、对话的总轮次（‘turns’）以及对话的整体标签（‘conversation_tag’）。这些信息为研究者提供了深入分析对话行为和模型性能的可能性。

使用方法

使用该数据集时，研究者可以利用其结构化的对话数据进行多种分析，如对话生成模型的评估、对话策略的研究以及对话质量的分析。通过解析‘role’键，可以区分用户和助手的对话内容，而‘tag’键则提供了额外的上下文信息，有助于更精细的分析。此外，数据集还提供了对话的来源和模型家族信息，这对于跨模型比较和性能评估尤为重要。

背景与挑战

背景概述

随着自然语言处理（NLP）技术的迅猛发展，对话系统尤其是基于大型语言模型（LLM）的聊天机器人逐渐成为研究热点。'talking-to-chatbots-chats'数据集由[Talking to Chatbots](https://talkingtochatbots.com)网站的作者创建，旨在收集与多种LLM工具的对话数据。该数据集的构建参考了[lmsys/lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m)的结构，采用JSON格式记录对话内容，每个消息包含'content'、'role'、'tag'和'turn'等字段，便于分析和标注。此外，数据集还包含'source'、'model_family'、'date'、'turns'和'conversation_tag'等元数据，为研究者提供了丰富的信息维度。该数据集的发布为对话系统的行为分析、模型评估以及用户交互研究提供了宝贵的资源。

当前挑战

尽管'talking-to-chatbots-chats'数据集为对话系统研究提供了丰富的数据支持，但其构建和应用过程中仍面临诸多挑战。首先，数据的真实性和可靠性是关键问题，尤其是在涉及用户与聊天机器人交互的场景中，如何有效识别和过滤虚假或误导性信息至关重要。其次，数据集的标注和分类工作复杂，尤其是当对话涉及多轮交互时，如何准确标注每条消息的'tag'和'role'需要大量人工干预。此外，数据集的多样性和覆盖范围也是一个挑战，如何确保不同LLM工具和模型家族的对话数据被充分收集和代表，以避免偏差和局限性。最后，数据集的隐私和安全问题也不容忽视，尤其是在处理用户生成的内容时，如何保护用户隐私并遵守相关法律法规是一个持续的挑战。

常用场景

经典使用场景

在自然语言处理领域，talking-to-chatbots-chats数据集的经典使用场景主要集中在对话系统的评估与优化。该数据集通过收集与多种大型语言模型（LLM）工具的对话，提供了丰富的对话样本，涵盖了用户与助手之间的多轮交互。研究者可以利用这些对话数据来分析模型在不同情境下的表现，评估其在生成响应、理解用户意图以及处理复杂对话任务中的能力。此外，该数据集还可用于训练和验证对话系统的模型，提升其在实际应用中的性能。

解决学术问题

该数据集在学术研究中解决了对话系统评估中的多个关键问题。首先，它为研究者提供了一个标准化的对话数据集，使得不同模型之间的性能比较成为可能。其次，通过标注对话中的角色、轮次和标签信息，研究者可以深入分析模型在特定任务中的表现，如 hallucination 现象的检测与纠正。此外，该数据集还为对话系统的多轮交互建模提供了宝贵的数据支持，推动了对话系统在自然语言理解与生成方面的研究进展。

衍生相关工作

基于talking-to-chatbots-chats数据集，研究者们开展了一系列相关工作。例如，reddgr系列模型通过对该数据集的进一步处理，生成了reddgr/talking-to-chatbots-unwrapped-chats数据集，提供了每轮对话的独立记录，并增加了分类标签和评估指标。这些衍生数据集为对话系统的细粒度分析和优化提供了新的工具。此外，研究者们还基于该数据集开发了多种对话系统评估框架，推动了对话系统在学术界和工业界的广泛应用。

以上内容由遇见数据集搜集并总结生成