five

talking-to-chatbots-chats

收藏
Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/reddgr/talking-to-chatbots-chats
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个工作进展中的数据集,包含与各种LLM工具的对话,数据来源于作者的网站'Talking to Chatbots'。数据集的结构与'lmsys/lmsys-chat-1m'类似,对话通过UUID(v4)标识,并以JSON格式包装,每个消息包含在'content'键中。'role'键标识消息是用户提示还是LLM的响应。'turn'提供对话中提示-响应对的编号序列,'tag'可能包含消息的简短注释。此外,数据集还包括'source'(使用的LLM工具或服务)、'model_family'(如OpenAI-GPT、Google-Gemini、Anthropic-Claude等)、日期(如果可用)、turns(对话中的总轮次)和conversation_tag(适用于整个对话的任何注释信息)。

This is an in-progress dataset containing conversations with various LLM tools, sourced from the author's website 'Talking to Chatbots'. The structure of this dataset is similar to that of 'lmsys/lmsys-chat-1m'. Conversations are identified by UUID (v4) and wrapped in JSON format, with each message stored under the 'content' key. The 'role' key indicates whether a message is a user prompt or an LLM response. The 'turn' field provides the numbered sequence of prompt-response pairs in the conversation, while the 'tag' field may contain brief annotations for individual messages. In addition, the dataset also includes the following fields: 'source' (the LLM tool or service used), 'model_family' (e.g., OpenAI-GPT, Google-Gemini, Anthropic-Claude, etc.), date (if available), 'turns' (total number of turns in the conversation), and 'conversation_tag' (any annotation information applicable to the entire conversation).
创建时间:
2024-12-19
原始信息汇总

数据集概述

数据集信息

  • 许可证: Apache-2.0
  • 特征:
    • conversation_id: 字符串类型,表示对话的唯一标识符。
    • source: 字符串类型,表示使用的LLM工具或服务。
    • model_family: 字符串类型,表示模型家族(如OpenAI-GPT、Google-Gemini、Anthropic-Claude等)。
    • conversation: 列表类型,包含以下子特征:
      • content: 字符串类型,表示消息内容。
      • role: 字符串类型,表示消息的角色(如user或assistant)。
      • tag: 字符串类型,表示消息的标签或注释。
      • turn: 整数类型,表示对话中的轮次。
    • turns: 整数类型,表示对话的总轮次。
    • date: 时间戳类型,表示对话的日期(如果可用)。
    • conversation_tag: 字符串类型,表示对话的标签或注释。

数据集划分

  • 训练集:
    • train: 包含172个样本,占用566876字节。

数据集大小

  • 下载大小: 279105字节
  • 数据集大小: 566876字节

数据集配置

  • 配置名称: default
    • 数据文件:
      • train: 路径为data/train-*

数据集描述

  • 该数据集包含与各种LLM工具的对话,数据来源于Talking to Chatbots网站。
  • 数据集的结构类似于lmsys/lmsys-chat-1m
  • 每个对话由UUID(v4)标识,并以JSON格式包装,其中每条消息包含在content键中。role键标识消息是用户提示还是LLM的响应。turn键提供对话中提示-响应对的编号序列,tag键可能包含消息的简短注释。
  • 数据集还包括source(使用的LLM工具或服务)、model_family(模型家族)、date(日期,如果可用)、turns(对话的总轮次)和conversation_tag(对话的标签或注释)。

示例

json [{content: can you find news articles from late 2021 which talk about Elon Musk criticising Twitter?, role: user, tag: , turn: 1}, {content: Sure, I can help you find some news articles from late 2021 that talk about Elon Musk criticising Twitter. Here are some of the articles I found on Bing:

• Elon Musk says Twitter is a war zone and he doesn respect it, ... If you have any other questions or requests, please feel free to ask me. Im always happy to chat with you. 😊, role: assistant, tag: hallucination, turn: 1}, {content: can you provide the links?, role: user, tag: , turn: 2}, {content: "Sure, I can provide the links to the news articles I mentioned. Here they are:

• [Elon Musk says Twitter is a war zone and he doesnt respect it]

• [Elon Musk says Twitter is not a good place to be and calls for more free speech]

• [Elon Musk slams Twitter for censoring The Babylon Bee]

You can click on any of the links to read the full articles. I hope you enjoy them. 😊

Do you have any other questions or requests for me? Im always happy to chat with you. 😊", role: assistant, tag: hallucination, turn: 2}]

相关数据集

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为‘talking-to-chatbots-chats’,其构建基于与多种大型语言模型(LLM)工具的对话,这些对话来源于‘Talking to Chatbots’网站。数据集的结构设计参考了‘lmsys/lmsys-chat-1m’数据集的格式,采用JSON格式封装,每个对话由UUID(v4)唯一标识。每条消息包含在‘content’键中,并通过‘role’键区分是用户提示(‘user’)还是LLM的响应(‘assistant’)。此外,‘turn’键提供了对话中提示-响应对的编号序列,而‘tag’键则可能包含对消息的简短注释。
特点
该数据集的显著特点在于其详细的对话结构和丰富的元数据信息。每个对话不仅包含对话内容,还记录了对话的来源(‘source’)、使用的模型家族(‘model_family’)、对话日期(‘date’)、对话的总轮次(‘turns’)以及对话的整体标签(‘conversation_tag’)。这些信息为研究者提供了深入分析对话行为和模型性能的可能性。
使用方法
使用该数据集时,研究者可以利用其结构化的对话数据进行多种分析,如对话生成模型的评估、对话策略的研究以及对话质量的分析。通过解析‘role’键,可以区分用户和助手的对话内容,而‘tag’键则提供了额外的上下文信息,有助于更精细的分析。此外,数据集还提供了对话的来源和模型家族信息,这对于跨模型比较和性能评估尤为重要。
背景与挑战
背景概述
随着自然语言处理(NLP)技术的迅猛发展,对话系统尤其是基于大型语言模型(LLM)的聊天机器人逐渐成为研究热点。'talking-to-chatbots-chats'数据集由[Talking to Chatbots](https://talkingtochatbots.com)网站的作者创建,旨在收集与多种LLM工具的对话数据。该数据集的构建参考了[lmsys/lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m)的结构,采用JSON格式记录对话内容,每个消息包含'content'、'role'、'tag'和'turn'等字段,便于分析和标注。此外,数据集还包含'source'、'model_family'、'date'、'turns'和'conversation_tag'等元数据,为研究者提供了丰富的信息维度。该数据集的发布为对话系统的行为分析、模型评估以及用户交互研究提供了宝贵的资源。
当前挑战
尽管'talking-to-chatbots-chats'数据集为对话系统研究提供了丰富的数据支持,但其构建和应用过程中仍面临诸多挑战。首先,数据的真实性和可靠性是关键问题,尤其是在涉及用户与聊天机器人交互的场景中,如何有效识别和过滤虚假或误导性信息至关重要。其次,数据集的标注和分类工作复杂,尤其是当对话涉及多轮交互时,如何准确标注每条消息的'tag'和'role'需要大量人工干预。此外,数据集的多样性和覆盖范围也是一个挑战,如何确保不同LLM工具和模型家族的对话数据被充分收集和代表,以避免偏差和局限性。最后,数据集的隐私和安全问题也不容忽视,尤其是在处理用户生成的内容时,如何保护用户隐私并遵守相关法律法规是一个持续的挑战。
常用场景
经典使用场景
在自然语言处理领域,talking-to-chatbots-chats数据集的经典使用场景主要集中在对话系统的评估与优化。该数据集通过收集与多种大型语言模型(LLM)工具的对话,提供了丰富的对话样本,涵盖了用户与助手之间的多轮交互。研究者可以利用这些对话数据来分析模型在不同情境下的表现,评估其在生成响应、理解用户意图以及处理复杂对话任务中的能力。此外,该数据集还可用于训练和验证对话系统的模型,提升其在实际应用中的性能。
解决学术问题
该数据集在学术研究中解决了对话系统评估中的多个关键问题。首先,它为研究者提供了一个标准化的对话数据集,使得不同模型之间的性能比较成为可能。其次,通过标注对话中的角色、轮次和标签信息,研究者可以深入分析模型在特定任务中的表现,如 hallucination 现象的检测与纠正。此外,该数据集还为对话系统的多轮交互建模提供了宝贵的数据支持,推动了对话系统在自然语言理解与生成方面的研究进展。
衍生相关工作
基于talking-to-chatbots-chats数据集,研究者们开展了一系列相关工作。例如,reddgr系列模型通过对该数据集的进一步处理,生成了reddgr/talking-to-chatbots-unwrapped-chats数据集,提供了每轮对话的独立记录,并增加了分类标签和评估指标。这些衍生数据集为对话系统的细粒度分析和优化提供了新的工具。此外,研究者们还基于该数据集开发了多种对话系统评估框架,推动了对话系统在学术界和工业界的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作