five

OpenLeecher/Teatime

收藏
Hugging Face2023-07-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OpenLeecher/Teatime
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据是从teatime logs xlsx文件中解析出来的日志。每次用户编辑或消息重新生成都会在对话树中创建一个新的分支,这导致在all_logs.json文件中出现消息重复。每次更改都会创建一个新的分支,复制所有先前的消息。而longest文件则不同,它们只包含从第一条到最后一条消息的最长路径,旨在避免重复。理想情况下,_longest文件应没有重复消息。
提供机构:
OpenLeecher
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 支持语言: 英语 (en), 韩语 (ko)
  • 数据集大小: 10K<n<100K

数据集详情

all_logs.json

  • 总令牌数: 237442515
  • 平均聊天令牌长度: 4246.03
  • 中位数聊天令牌长度: 3797.0
  • 平均每聊天消息数: 18.96
  • 中位数每聊天消息数: 15.0
  • 聊天总数: 55921

all_logs_longest.json

  • 总令牌数: 27611121
  • 平均聊天令牌长度: 2499.65
  • 中位数聊天令牌长度: 1335.5
  • 平均每聊天消息数: 11.27
  • 中位数每聊天消息数: 5.0
  • 聊天总数: 11046
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作