roborovski/crd-preproc
收藏Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/roborovski/crd-preproc
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: chunk
dtype: string
- name: chunk_id
dtype: int32
- name: turn_start
dtype: int32
- name: turn_end
dtype: int32
- name: alignment_score
dtype: float32
- name: turns
list:
- name: names
sequence: string
- name: utterances
sequence: string
- name: number
dtype: int32
- name: text
dtype: string
splits:
- name: train
num_bytes: 414731309
num_examples: 38969
- name: test
num_bytes: 70536184
num_examples: 7500
- name: validation
num_bytes: 73015166
num_examples: 6327
download_size: 210313194
dataset_size: 558282659
---
# Dataset Card for "crd-preproc"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
roborovski
原始信息汇总
数据集概述
数据集特征
- chunk: 数据类型为字符串(string)。
- chunk_id: 数据类型为整数(int32)。
- turn_start: 数据类型为整数(int32)。
- turn_end: 数据类型为整数(int32)。
- alignment_score: 数据类型为浮点数(float32)。
- turns: 包含以下子特征:
- names: 数据类型为字符串序列(sequence: string)。
- utterances: 数据类型为字符串序列(sequence: string)。
- number: 数据类型为整数(int32)。
- text: 数据类型为字符串(string)。
数据集划分
- train: 包含38969个样本,数据大小为414731309字节。
- test: 包含7500个样本,数据大小为70536184字节。
- validation: 包含6327个样本,数据大小为73015166字节。
数据集大小
- 下载大小: 210313194字节。
- 数据集总大小: 558282659字节。



