five

jihyoung/ConversationChronicles

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jihyoung/ConversationChronicles
下载链接
链接失效反馈
官方服务:
资源简介:
Conversation Chronicles是一个高质量的多会话数据集,包含1M个会话和200K个事件,总计11.7M个对话轮次。每个会话平均有11.7个对话轮次,每个对话轮次平均有18.03个单词。数据集分为训练集(800,000个会话)、验证集(100,000个会话)和测试集(100,000个会话)。数据集结构包括多个字段,如dataID、relationship、time_interval、summary等。时间间隔包括几小时、几天、几周、几个月和几年。说话者关系包括同学、邻居、同事、导师与学员、夫妻、病人与医生、父母与孩子、学生与老师、员工与老板、运动员与教练等。数据集通过整合时间间隔和说话者关系来实现时间动态性。
提供机构:
jihyoung
原始信息汇总

Conversation Chronicles 数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 任务类别: 对话
  • 语言: 英语
  • 数据集名称: Conversation Chronicles

数据集规模

  • 会话数量: 100万
  • 片段数量: 20万
  • 对话轮次数量: 1170万
  • 平均每会话轮次: 11.7
  • 平均每轮次单词数: 18.03

数据集划分

划分 会话数量 片段数量
训练集 80万 16万
验证集 10万 2万
测试集 10万 2万

数据集结构

字段 类型 描述
dataID 字符串 片段的唯一ID
relationship 字符串 片段中说话者之间的关系
time_interval 序列(列表) 会话之间的时间间隔(共5个)
summary 序列(列表) 每个会话的按时间顺序的摘要(共5个)
first_session_dialogue 序列(列表) 第一个会话的对话
first_session_speakers 序列(列表) 第一个会话的说话者匹配
second_session_dialogue 序列(列表) 第二个会话的对话
second_session_speakers 序列(列表) 第二个会话的说话者匹配
third_session_dialogue 序列(列表) 第三个会话的对话
third_session_speakers 序列(列表) 第三个会话的说话者匹配
fourth_session_dialogue 序列(列表) 第四个会话的对话
fourth_session_speakers 序列(列表) 第四个会话的说话者匹配
fifth_session_dialogue 序列(列表) 第五个会话的对话
fifth_session_speakers 序列(列表) 第五个会话的说话者匹配

时间动态

  • 时间间隔分布:

    时间间隔 数量
    A few hours 159,975
    A few days 159,928
    A few weeks 160,670
    A few months 160,050
    A couple of years 159,377
  • 关系分布:

    关系 数量 比例
    Classmates 66,090 33.05%
    Neighbors 49,521 24.76%
    Co-workers 28,856 14.43%
    Mentee and Mentor 16,035 8.02%
    Husband and Wife 13,486 6.74%
    Patient and Doctor 6,980 3.49%
    Parent and Child 6,514 3.26%
    Student and Teacher 5,018 2.51%
    Employee and Boss 4,811 2.41%
    Athlete and Coach 2,689 1.34%
    Total 200,000
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Conversation Chronicles是一个高质量的多会话英文对话数据集,包含100万条会话和20万条对话片段,每条记录包含5个连续会话,展示了丰富的时间跨度(从几小时到几年)和多样的人际关系类型。该数据集特别设计了时间间隔和说话者关系等结构化特征,旨在支持对对话时序动态和社交关系演变的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作