mydroidandi/commbase-log-chats
收藏Commbase Log Chats Dataset
数据集描述
Commbase Log Chats Dataset 包含了一系列助手(Eva AI)与终端用户之间的聊天日志。该数据集以文本交流的形式捕捉了交互,并附带了时间戳、消息来源、严重级别和说话者详情等元数据。此数据集可用于自然语言处理(NLP)、对话式AI和聊天分析等多种应用。
数据集结构
数据集以JSON格式存储,每个聊天日志条目包含以下字段:
- content: 日志条目的完整内容,包括时间戳、来源、严重级别、说话者和文本的组合字符串。
- timestamp: 消息记录的日期和时间。
- origin: 消息的来源(例如,app, stt-whisper-proactive)。
- severity: 消息的严重级别(例如,DEBUG)。
- speaker: 说话的实体(例如,ASSISTANT, END USER)。
- text: 消息的实际文本。
- id: 每个日志条目的唯一标识符。
示例条目
json { "content": "timestamp: 2024-06-09 21:15:39 origin: app severity: DEBUG speaker: ASSISTANT: Mute the microphone to pause recording.", "timestamp": "2024-06-09 21:15:39", "origin": "app", "severity": "DEBUG", "speaker": "ASSISTANT", "text": "Mute the microphone to pause recording.", "id": 1 }
使用方法
可以使用Hugging Face的datasets库加载数据集。以下是如何在Python中加载和使用数据集的示例:
python from datasets import load_dataset
从Hugging Face加载数据集
dataset = load_dataset("mydroidandi/commbase-log-chats")
显示前几个条目
print(dataset[train][:5])
许可证
Apache-2.0.
引用
如果您在工作中使用了此数据集,请按以下方式引用:
bibtext @dataset{mydroidandi_commbase_log_chats, author = {Esteban Herrera}, title = {Commbase Log Chats Dataset}, year = {2024}, url = {https://huggingface.co/datasets/mydroidandi/commbase-log-chats}, }
联系
如有任何关于数据集的问题或疑问,请联系:
- 姓名:Esteban Herrera Castro
- 邮箱:stv.herrera@gmail.com
- GitHub:https://github.com/estebanways



