jihyoung/ConversationChronicles
收藏Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jihyoung/ConversationChronicles
下载链接
链接失效反馈官方服务:
资源简介:
Conversation Chronicles是一个高质量的多会话数据集,包含1M个会话和200K个事件,总计11.7M个对话轮次。每个会话平均有11.7个对话轮次,每个对话轮次平均有18.03个单词。数据集分为训练集(800,000个会话)、验证集(100,000个会话)和测试集(100,000个会话)。数据集结构包括多个字段,如dataID、relationship、time_interval、summary等。时间间隔包括几小时、几天、几周、几个月和几年。说话者关系包括同学、邻居、同事、导师与学员、夫妻、病人与医生、父母与孩子、学生与老师、员工与老板、运动员与教练等。数据集通过整合时间间隔和说话者关系来实现时间动态性。
提供机构:
jihyoung
原始信息汇总
Conversation Chronicles 数据集概述
基本信息
- 许可证: CC BY 4.0
- 任务类别: 对话
- 语言: 英语
- 数据集名称: Conversation Chronicles
数据集规模
- 会话数量: 100万
- 片段数量: 20万
- 对话轮次数量: 1170万
- 平均每会话轮次: 11.7
- 平均每轮次单词数: 18.03
数据集划分
| 划分 | 会话数量 | 片段数量 |
|---|---|---|
| 训练集 | 80万 | 16万 |
| 验证集 | 10万 | 2万 |
| 测试集 | 10万 | 2万 |
数据集结构
| 字段 | 类型 | 描述 |
|---|---|---|
dataID |
字符串 | 片段的唯一ID |
relationship |
字符串 | 片段中说话者之间的关系 |
time_interval |
序列(列表) | 会话之间的时间间隔(共5个) |
summary |
序列(列表) | 每个会话的按时间顺序的摘要(共5个) |
first_session_dialogue |
序列(列表) | 第一个会话的对话 |
first_session_speakers |
序列(列表) | 第一个会话的说话者匹配 |
second_session_dialogue |
序列(列表) | 第二个会话的对话 |
second_session_speakers |
序列(列表) | 第二个会话的说话者匹配 |
third_session_dialogue |
序列(列表) | 第三个会话的对话 |
third_session_speakers |
序列(列表) | 第三个会话的说话者匹配 |
fourth_session_dialogue |
序列(列表) | 第四个会话的对话 |
fourth_session_speakers |
序列(列表) | 第四个会话的说话者匹配 |
fifth_session_dialogue |
序列(列表) | 第五个会话的对话 |
fifth_session_speakers |
序列(列表) | 第五个会话的说话者匹配 |
时间动态
-
时间间隔分布:
时间间隔 数量 A few hours159,975 A few days159,928 A few weeks160,670 A few months160,050 A couple of years159,377 -
关系分布:
关系 数量 比例 Classmates 66,090 33.05% Neighbors 49,521 24.76% Co-workers 28,856 14.43% Mentee and Mentor 16,035 8.02% Husband and Wife 13,486 6.74% Patient and Doctor 6,980 3.49% Parent and Child 6,514 3.26% Student and Teacher 5,018 2.51% Employee and Boss 4,811 2.41% Athlete and Coach 2,689 1.34% Total 200,000
搜集汇总
数据集介绍

背景与挑战
背景概述
Conversation Chronicles是一个高质量的多会话英文对话数据集,包含100万条会话和20万条对话片段,每条记录包含5个连续会话,展示了丰富的时间跨度(从几小时到几年)和多样的人际关系类型。该数据集特别设计了时间间隔和说话者关系等结构化特征,旨在支持对对话时序动态和社交关系演变的研究。
以上内容由遇见数据集搜集并总结生成



