nayohan/conversation_chronicles

Name: nayohan/conversation_chronicles
Creator: nayohan
Published: 2024-06-15 11:24:05
License: 暂无描述

Hugging Face2024-06-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nayohan/conversation_chronicles

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: dataset dtype: string - name: data_id dtype: string - name: dialogue_id dtype: int64 - name: session_id dtype: int64 - name: relationship dtype: string - name: time_interval dtype: string - name: summarization dtype: string - name: dialogue sequence: string - name: speaker sequence: string splits: - name: train num_bytes: 66878033 num_examples: 40000 - name: validation num_bytes: 8358511 num_examples: 5000 - name: test num_bytes: 8375545 num_examples: 5000 download_size: 39941247 dataset_size: 83612089 --- # Dataset Card for "conversation_chronicles" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

nayohan

原始信息汇总

数据集概述

数据集配置

默认配置：
- 训练集：路径为 data/train-*
- 验证集：路径为 data/validation-*
- 测试集：路径为 data/test-*

数据集信息

特征：
- dataset：数据集名称，类型为 string
- data_id：数据标识，类型为 string
- dialogue_id：对话标识，类型为 int64
- session_id：会话标识，类型为 int64
- relationship：关系描述，类型为 string
- time_interval：时间间隔，类型为 string
- summarization：摘要，类型为 string
- dialogue：对话内容，类型为 sequence 的 string
- speaker：说话者，类型为 sequence 的 string
数据分割：
- 训练集：
  - 字节数：66878033
  - 样本数：40000
- 验证集：
  - 字节数：8358511
  - 样本数：5000
- 测试集：
  - 字节数：8375545
  - 样本数：5000
数据集大小：
- 下载大小：39941247 字节
- 数据集大小：83612089 字节

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个多关系对话数据集，包含约5万行对话记录，涵盖同学、同事、邻居等多种人际关系，并标注了时间间隔和对话摘要。其特点在于以时间序列组织对话，适用于对话生成、关系建模和时间序列分析等自然语言处理任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集