talking-to-chatbots-chats
收藏数据集概述
数据集信息
- 许可证: Apache-2.0
- 特征:
conversation_id: 字符串类型,表示对话的唯一标识符。source: 字符串类型,表示使用的LLM工具或服务。model_family: 字符串类型,表示模型家族(如OpenAI-GPT、Google-Gemini、Anthropic-Claude等)。conversation: 列表类型,包含以下子特征:content: 字符串类型,表示消息内容。role: 字符串类型,表示消息的角色(如user或assistant)。tag: 字符串类型,表示消息的标签或注释。turn: 整数类型,表示对话中的轮次。
turns: 整数类型,表示对话的总轮次。date: 时间戳类型,表示对话的日期(如果可用)。conversation_tag: 字符串类型,表示对话的标签或注释。
数据集划分
- 训练集:
train: 包含172个样本,占用566876字节。
数据集大小
- 下载大小: 279105字节
- 数据集大小: 566876字节
数据集配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*。
- 数据文件:
数据集描述
- 该数据集包含与各种LLM工具的对话,数据来源于Talking to Chatbots网站。
- 数据集的结构类似于lmsys/lmsys-chat-1m。
- 每个对话由UUID(v4)标识,并以JSON格式包装,其中每条消息包含在content键中。role键标识消息是用户提示还是LLM的响应。turn键提供对话中提示-响应对的编号序列,tag键可能包含消息的简短注释。
- 数据集还包括source(使用的LLM工具或服务)、model_family(模型家族)、date(日期,如果可用)、turns(对话的总轮次)和conversation_tag(对话的标签或注释)。
示例
json [{content: can you find news articles from late 2021 which talk about Elon Musk criticising Twitter?, role: user, tag: , turn: 1}, {content: Sure, I can help you find some news articles from late 2021 that talk about Elon Musk criticising Twitter. Here are some of the articles I found on Bing:
• Elon Musk says Twitter is a war zone and he doesn respect it, ... If you have any other questions or requests, please feel free to ask me. Im always happy to chat with you. 😊, role: assistant, tag: hallucination, turn: 1}, {content: can you provide the links?, role: user, tag: , turn: 2}, {content: "Sure, I can provide the links to the news articles I mentioned. Here they are:
• [Elon Musk says Twitter is a war zone and he doesnt respect it]
• [Elon Musk says Twitter is not a good place to be and calls for more free speech]
• [Elon Musk slams Twitter for censoring The Babylon Bee]
You can click on any of the links to read the full articles. I hope you enjoy them. 😊
Do you have any other questions or requests for me? Im always happy to chat with you. 😊", role: assistant, tag: hallucination, turn: 2}]
相关数据集
- reddgr/talking-to-chatbots-unwrapped-chats: 该数据集的“展开”版本,其中每个对话的每轮(提示-响应对)作为单独的记录呈现,并带有额外的指标和分类标签。




