hlhdatscience/guanaco-spanish-dataset

Name: hlhdatscience/guanaco-spanish-dataset
Creator: hlhdatscience
Published: 2024-01-12 09:35:16
License: 暂无描述

Hugging Face2024-01-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hlhdatscience/guanaco-spanish-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是timdettmers/openassistant-guanaco的一个子集，仅包含对话树中评分最高的路径，并已通过GPT 3.5 turbo翻译成西班牙语。数据集包含2,369个样本，分别占原数据集中训练集和测试集的40%和41%。数据集适用于Open Assistant应用程序的模型训练和评估。

提供机构：

hlhdatscience

原始信息汇总

数据集卡片 for "guanaco-spanish-dataset"

数据集详情

语言: 西班牙语
许可证: Apache 2.0
数据集名称: guanaco-spanish-dataset
配置:
- 默认配置:
  - 数据文件:
    - 训练集: data/train-*
    - 测试集: data/test-*
数据集信息:
- 特征:
  - 文本: 字符串类型
  - 分区: 字符串类型
- 分割:
  - 训练集:
    - 字节数: 4071580
    - 样本数: 2173
  - 测试集:
    - 字节数: 333135
    - 样本数: 196
- 下载大小: 2267485
- 数据集大小: 4404715

数据集创建

数据集来源: 原始数据集是 timdettmers/openassistant-guanaco 的一个子集，该数据集也是 Open Assistant 数据集的一个子集。
数据集创建理由: 该子集旨在提供原始 Open Assistant 数据集中最高评级的对话路径的聚焦集合，翻译过程使用 GPT 3.5 turbo 完成。
数据收集和处理: 源数据是 timdettmers/openassistant-guanaco 数据集的一个子集，翻译过程涉及 GPT 3.5 turbo。
源数据生产者: 原始数据生产者包括 Open Assistant 数据集的贡献者，翻译过程涉及使用 GPT 3.5 turbo。

数据集结构

数据集组织: 数据集按对话路径组织，每个路径包含最高评级的样本。样本是通过 GPT 3.5 turbo 生成的翻译版本。

使用

直接使用: 该数据集适用于在 Open Assistant 应用场景中训练和评估模型，专注于对话树中最高评级的路径。
超出范围使用: 在 Open Assistant 应用场景之外的使用可能不会产生最佳结果。

个人和敏感信息

信息内容: 数据集不包含个人或敏感信息。

偏差、风险和限制

偏差和风险: 用户应注意在翻译过程中可能引入的潜在偏差。
限制: 包括专注于最高评级的对话路径。

建议

使用建议: 用户在使用数据集进行模型训练和应用时应考虑潜在的偏差和限制。

5,000+

优质数据集

54 个

任务类型

进入经典数据集