commbase-log-chats
收藏Commbase Log Chats Dataset
数据集描述
Commbase Log Chats Dataset 包含了一系列助手(Eva AI)与终端用户之间的聊天日志。该数据集以文本交换形式记录了交互信息,并附带了时间戳、消息来源、严重级别和说话者详情等元数据。此数据集可用于多种应用,包括自然语言处理(NLP)、对话式AI和聊天分析。
数据集结构
数据集以JSON格式存储,每个聊天日志条目包含以下字段:
- content: 包含时间戳、来源、严重级别、说话者和文本的完整日志条目。
- timestamp: 消息记录的日期和时间。
- origin: 消息的来源(例如,app, stt-whisper-proactive)。
- severity: 消息的严重级别(例如,DEBUG)。
- speaker: 说话的实体(例如,ASSISTANT, END USER)。
- text: 消息的实际文本。
- source: 日志条目提取的文件。
- id: 每个日志条目的唯一标识符。
示例条目
json { "content": "timestamp: 2024-06-09 19:42:10 origin: app severity: DEBUG speaker: ASSISTANT: Mute the microphone to pause recording.", "timestamp": "2024-06-09 19:42:10", "origin": "app", "severity": "DEBUG", "speaker": "ASSISTANT", "text": "Mute the microphone to pause recording.", "source": "chat_log_20240609203647_4314.txt", "id": 1 }
使用方法
可以使用Hugging Face的datasets库加载数据集。以下是如何在Python中加载和使用数据集的示例:
python from datasets import load_dataset
从Hugging Face加载数据集
dataset = load_dataset("mydroidandi/commbase-log-chats")
print("Dataset length:", len(dataset), " ") print(dataset)
显示前几个条目
num_entries_to_display = 3 # 根据需要调整此数字
for i in range(min(num_entries_to_display, len(dataset[train]))): print(f"Entry {i + 1}:") print(dataset[train][i]) print() # 在条目之间打印空行
许可证
Apache-2.0.
引用
如果在工作中使用此数据集,请按以下方式引用:
bibtext @misc{esteban_herrera_castro_2024, title={commbase-log-chats}, url={https://www.kaggle.com/dsv/8805110}, DOI={10.34740/KAGGLE/DSV/8805110}, publisher={Kaggle}, author={Esteban Herrera Castro}, year={2024} }
联系
如有任何关于数据集的问题或问题,请联系:
- 姓名:Esteban Herrera Castro
- 邮箱:stv.herrera@gmail.com
- GitHub:https://github.com/estebanways




