danielroncel/dstc2_dialogues_transcript_input_gpt2
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/danielroncel/dstc2_dialogues_transcript_input_gpt2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: session_id
dtype: string
- name: audio_file
dtype: string
- name: chat_history_last_9_tokenized
sequence: int64
- name: speaker_text_last_9_tokenized
sequence: int64
- name: attention_mask
sequence: int64
- name: label_semantics
dtype: string
- name: label_semantics_encoded
dtype: int64
- name: label
dtype: string
- name: label_encoded
dtype: int64
splits:
- name: train
num_bytes: 185829774
num_examples: 22266
download_size: 1880555
dataset_size: 185829774
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
danielroncel
原始信息汇总
数据集概述
数据集特征
- session_id: 数据类型为字符串。
- audio_file: 数据类型为字符串。
- chat_history_last_9_tokenized: 数据类型为整数序列。
- speaker_text_last_9_tokenized: 数据类型为整数序列。
- attention_mask: 数据类型为整数序列。
- label_semantics: 数据类型为字符串。
- label_semantics_encoded: 数据类型为整数。
- label: 数据类型为字符串。
- label_encoded: 数据类型为整数。
数据集分割
- train: 包含22266个样本,占用185829774字节。
数据集大小
- 下载大小: 1880555字节。
- 数据集大小: 185829774字节。
配置
- default:
- 数据文件:
- split: train
- path: data/train-*
- 数据文件:



