five

Teatime

收藏
魔搭社区2025-12-05 更新2025-01-25 收录
下载链接:
https://modelscope.cn/datasets/OpenLeecher/Teatime
下载链接
链接失效反馈
官方服务:
资源简介:
### INFO: These are the parsed logs from the "teatime logs" xlsx files. Every user edit or message regeneration makes a new branch in the conversation tree. This leads to message duplication in the 'all_logs.json' file. Every change creates a fresh branch, copying all earlier messages. The 'longest' files are different. They only contain the longest path from the first to the last message. This approach aims to avoid duplication. Ideally, the '_longest' files should have no repeat messages. ### all_logs.json Total tokens: 237442515 Average chat token length: 4246.03 Median chat token length: 3797.0 Average messages per chat: 18.96 Median messages per chat: 15.0 Total number of chats: 55921 ### all_logs_longest.json Total tokens: 27611121 Average chat token length: 2499.65 Median chat token length: 1335.5 Average messages per chat: 11.27 Median messages per chat: 5.0 Total number of chats: 11046 ![Alt text](https://gcdnb.pbrd.co/images/7rCUvL1p5LI0.png?o=1)

### 信息说明: 本数据集源自「teatime logs」XLSX格式文件的解析日志。每一次用户编辑或消息重生成操作,都会在对话树中生成一条全新分支,这会导致`all_logs.json`文件中出现消息重复:每一次变更都会生成新分支并复制此前所有消息内容。 带`_longest`标识的文件采用差异化处理逻辑,仅保留从首条消息至末条消息的最长路径,该设计旨在规避消息重复问题,理想状态下此类文件不应包含重复消息。 ### all_logs.json 总Token数:237442515 单会话平均Token长度:4246.03 单会话Token长度中位数:3797.0 单会话平均消息数:18.96 单会话消息数中位数:15.0 总会话数:55921 ### all_logs_longest.json 总Token数:27611121 单会话平均Token长度:2499.65 单会话Token长度中位数:1335.5 单会话平均消息数:11.27 单会话消息数中位数:5.0 总会话数:11046 ![Alt text](https://gcdnb.pbrd.co/images/7rCUvL1p5LI0.png?o=1)
提供机构:
maas
创建时间:
2025-01-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作