manishiitg/LDJnr-Capybara
收藏Hugging Face2024-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/manishiitg/LDJnr-Capybara
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: org_dataset
dtype: string
- name: uniq_id
dtype: string
- name: en_messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: hi_messages
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: train
num_bytes: 76326810
num_examples: 6710
download_size: 30685522
dataset_size: 76326810
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 名称:原始数据集(org_dataset),数据类型:字符串
- 名称:唯一标识符(uniq_id),数据类型:字符串
- 名称:英文对话消息(en_messages),数据类型为列表,列表元素包含:
- 名称:内容(content),数据类型:字符串
- 名称:角色(role),数据类型:字符串
- 名称:印地语对话消息(hi_messages),数据类型为列表,列表元素包含:
- 名称:内容(content),数据类型:字符串
- 名称:角色(role),数据类型:字符串
数据划分:
- 划分名称:训练集(train),字节占用大小:76326810,样本总数:6710
下载大小:30685522
数据集总大小:76326810
数据集配置:
- 配置名称:默认配置(default),数据文件:
- 对应划分:训练集(train),文件路径:data/train-*
提供机构:
manishiitg
原始信息汇总
数据集概述
数据集信息
- 特征列表:
org_dataset: 类型为字符串。uniq_id: 类型为字符串。en_messages: 包含以下子特征的列表:content: 类型为字符串。role: 类型为字符串。
hi_messages: 包含以下子特征的列表:content: 类型为字符串。role: 类型为字符串。
数据分割
- 训练集:
- 名称:
train - 字节数: 76326810
- 样本数: 6710
- 名称:
数据集大小
- 下载大小: 30685522 字节
- 数据集大小: 76326810 字节
配置
- 默认配置:
- 数据文件:
- 分割:
train - 路径:
data/train-*
- 分割:
- 数据文件:



