NickyNicky/DIBT_prompts_ranked_English_to_Spanish_translator
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/DIBT_prompts_ranked_English_to_Spanish_translator
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: es
struct:
- name: avg_rating_es
dtype: float64
- name: cluster_description_es
dtype: string
- name: input_es
dtype: string
- name: kind_es
dtype: string
- name: topic_es
dtype: string
- name: en
struct:
- name: avg_rating_en
dtype: float64
- name: cluster_description_en
dtype: string
- name: input_en
dtype: string
- name: kind_en
dtype: string
- name: topic_en
dtype: string
splits:
- name: train
num_bytes: 12172698
num_examples: 10280
download_size: 6224344
dataset_size: 12172698
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: apache-2.0
task_categories:
- translation
language:
- en
- es
size_categories:
- 1K<n<10K
---
```
https://huggingface.co/datasets/NickyNicky/DIBT_prompts_ranked
```
## nota:
* no se tradujo texto mayor a 2048 tokens,
数据集信息:
特征字段:
- 分支名称:es(西班牙语),结构体包含以下字段:
- avg_rating_es:西班牙语平均评分,数据类型:双精度浮点数(float64)
- cluster_description_es:西班牙语聚类描述,数据类型:字符串(string)
- input_es:西班牙语输入文本,数据类型:字符串(string)
- kind_es:西班牙语样本类型,数据类型:字符串(string)
- topic_es:西班牙语主题,数据类型:字符串(string)
- 分支名称:en(英语),结构体包含以下字段:
- avg_rating_en:英语平均评分,数据类型:双精度浮点数(float64)
- cluster_description_en:英语聚类描述,数据类型:字符串(string)
- input_en:英语输入文本,数据类型:字符串(string)
- kind_en:英语样本类型,数据类型:字符串(string)
- topic_en:英语主题,数据类型:字符串(string)
数据集划分:
- 划分名称:train(训练集),占用字节数:12172698,样本总数:10280
下载总大小:6224344 字节
数据集总大小:12172698 字节
配置项:
- 配置名称:default(默认配置),关联数据文件:
- 对应数据集划分:train(训练集),文件路径:data/train-*
开源协议:Apache-2.0
任务类别:机器翻译
支持语言:英语(en)、西班牙语(es)
样本规模区间:1000 < 样本量 < 10000
原始数据集托管链接:https://huggingface.co/datasets/NickyNicky/DIBT_prompts_ranked
备注:* 长度超过2048个Token的文本未进行翻译
提供机构:
NickyNicky
原始信息汇总
数据集概述
数据集特征
- 语言特征:
- es:
- avg_rating_es:float64类型
- cluster_description_es:string类型
- input_es:string类型
- kind_es:string类型
- topic_es:string类型
- en:
- avg_rating_en:float64类型
- cluster_description_en:string类型
- input_en:string类型
- kind_en:string类型
- topic_en:string类型
- es:
数据集分割
- train:
- num_bytes:12172698字节
- num_examples:10280个样本
数据集大小
- 下载大小:6224344字节
- 数据集大小:12172698字节
配置
- config_name:default
- data_files:
- split:train
- path:data/train-*
许可证
- license:apache-2.0
任务类别
- task_categories:translation
语言
- language:
- en
- es
大小类别
- size_categories:1K<n<10K



