five

NickyNicky/DIBT_prompts_ranked_English_to_Spanish_translator

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/DIBT_prompts_ranked_English_to_Spanish_translator
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: es struct: - name: avg_rating_es dtype: float64 - name: cluster_description_es dtype: string - name: input_es dtype: string - name: kind_es dtype: string - name: topic_es dtype: string - name: en struct: - name: avg_rating_en dtype: float64 - name: cluster_description_en dtype: string - name: input_en dtype: string - name: kind_en dtype: string - name: topic_en dtype: string splits: - name: train num_bytes: 12172698 num_examples: 10280 download_size: 6224344 dataset_size: 12172698 configs: - config_name: default data_files: - split: train path: data/train-* license: apache-2.0 task_categories: - translation language: - en - es size_categories: - 1K<n<10K --- ``` https://huggingface.co/datasets/NickyNicky/DIBT_prompts_ranked ``` ## nota: * no se tradujo texto mayor a 2048 tokens,

数据集信息: 特征字段: - 分支名称:es(西班牙语),结构体包含以下字段: - avg_rating_es:西班牙语平均评分,数据类型:双精度浮点数(float64) - cluster_description_es:西班牙语聚类描述,数据类型:字符串(string) - input_es:西班牙语输入文本,数据类型:字符串(string) - kind_es:西班牙语样本类型,数据类型:字符串(string) - topic_es:西班牙语主题,数据类型:字符串(string) - 分支名称:en(英语),结构体包含以下字段: - avg_rating_en:英语平均评分,数据类型:双精度浮点数(float64) - cluster_description_en:英语聚类描述,数据类型:字符串(string) - input_en:英语输入文本,数据类型:字符串(string) - kind_en:英语样本类型,数据类型:字符串(string) - topic_en:英语主题,数据类型:字符串(string) 数据集划分: - 划分名称:train(训练集),占用字节数:12172698,样本总数:10280 下载总大小:6224344 字节 数据集总大小:12172698 字节 配置项: - 配置名称:default(默认配置),关联数据文件: - 对应数据集划分:train(训练集),文件路径:data/train-* 开源协议:Apache-2.0 任务类别:机器翻译 支持语言:英语(en)、西班牙语(es) 样本规模区间:1000 < 样本量 < 10000 原始数据集托管链接:https://huggingface.co/datasets/NickyNicky/DIBT_prompts_ranked 备注:* 长度超过2048个Token的文本未进行翻译
提供机构:
NickyNicky
原始信息汇总

数据集概述

数据集特征

  • 语言特征
    • es
      • avg_rating_es:float64类型
      • cluster_description_es:string类型
      • input_es:string类型
      • kind_es:string类型
      • topic_es:string类型
    • en
      • avg_rating_en:float64类型
      • cluster_description_en:string类型
      • input_en:string类型
      • kind_en:string类型
      • topic_en:string类型

数据集分割

  • train
    • num_bytes:12172698字节
    • num_examples:10280个样本

数据集大小

  • 下载大小:6224344字节
  • 数据集大小:12172698字节

配置

  • config_name:default
  • data_files
    • split:train
    • path:data/train-*

许可证

  • license:apache-2.0

任务类别

  • task_categories:translation

语言

  • language
    • en
    • es

大小类别

  • size_categories:1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作