vwxyzjn/ultrachat_200k_filtered_1707919115
收藏Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/ultrachat_200k_filtered_1707919115
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: query_reference_response
list:
- name: content
dtype: string
- name: role
dtype: string
- name: query_reference_response_token
sequence: int64
- name: query_reference_response_token_len
dtype: int64
- name: query
list:
- name: content
dtype: string
- name: role
dtype: string
- name: query_token
sequence: int64
- name: query_token_len
dtype: int64
- name: reference_response
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: reference_response_token
sequence: int64
- name: reference_response_token_len
dtype: int64
splits:
- name: test_gen
num_bytes: 30484069
num_examples: 1000
- name: test_sft
num_bytes: 39592502
num_examples: 1000
- name: train_gen
num_bytes: 29613744
num_examples: 1000
- name: train_sft
num_bytes: 39521233
num_examples: 1000
download_size: 50859072
dataset_size: 139211548
---
# Dataset Card for "ultrachat_200k_filtered_1707919115"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
vwxyzjn
原始信息汇总
数据集概述
数据集信息
- 特征列表:
prompt: 类型为字符串。prompt_id: 类型为字符串。messages: 列表类型,包含以下字段:content: 类型为字符串。role: 类型为字符串。
query_reference_response: 列表类型,包含以下字段:content: 类型为字符串。role: 类型为字符串。
query_reference_response_token: 序列类型,元素为int64。query_reference_response_token_len: 类型为int64。query: 列表类型,包含以下字段:content: 类型为字符串。role: 类型为字符串。
query_token: 序列类型,元素为int64。query_token_len: 类型为int64。reference_response: 结构类型,包含以下字段:content: 类型为字符串。role: 类型为字符串。
reference_response_token: 序列类型,元素为int64。reference_response_token_len: 类型为int64。
数据集分割
- test_gen:
- 字节数: 30484069
- 样本数: 1000
- test_sft:
- 字节数: 39592502
- 样本数: 1000
- train_gen:
- 字节数: 29613744
- 样本数: 1000
- train_sft:
- 字节数: 39521233
- 样本数: 1000
数据集大小
- 下载大小: 50859072 字节
- 数据集大小: 139211548 字节



