five

hlhdatscience/guanaco-spanish-dataset

收藏
Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hlhdatscience/guanaco-spanish-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是timdettmers/openassistant-guanaco的一个子集,仅包含对话树中评分最高的路径,并已通过GPT 3.5 turbo翻译成西班牙语。数据集包含2,369个样本,分别占原数据集中训练集和测试集的40%和41%。数据集适用于Open Assistant应用程序的模型训练和评估。
提供机构:
hlhdatscience
原始信息汇总

数据集卡片 for "guanaco-spanish-dataset"

数据集详情

  • 语言: 西班牙语
  • 许可证: Apache 2.0
  • 数据集名称: guanaco-spanish-dataset
  • 配置:
    • 默认配置:
      • 数据文件:
        • 训练集: data/train-*
        • 测试集: data/test-*
  • 数据集信息:
    • 特征:
      • 文本: 字符串类型
      • 分区: 字符串类型
    • 分割:
      • 训练集:
        • 字节数: 4071580
        • 样本数: 2173
      • 测试集:
        • 字节数: 333135
        • 样本数: 196
    • 下载大小: 2267485
    • 数据集大小: 4404715

数据集创建

  • 数据集来源: 原始数据集是 timdettmers/openassistant-guanaco 的一个子集,该数据集也是 Open Assistant 数据集的一个子集。
  • 数据集创建理由: 该子集旨在提供原始 Open Assistant 数据集中最高评级的对话路径的聚焦集合,翻译过程使用 GPT 3.5 turbo 完成。
  • 数据收集和处理: 源数据是 timdettmers/openassistant-guanaco 数据集的一个子集,翻译过程涉及 GPT 3.5 turbo。
  • 源数据生产者: 原始数据生产者包括 Open Assistant 数据集的贡献者,翻译过程涉及使用 GPT 3.5 turbo。

数据集结构

  • 数据集组织: 数据集按对话路径组织,每个路径包含最高评级的样本。样本是通过 GPT 3.5 turbo 生成的翻译版本。

使用

  • 直接使用: 该数据集适用于在 Open Assistant 应用场景中训练和评估模型,专注于对话树中最高评级的路径。
  • 超出范围使用: 在 Open Assistant 应用场景之外的使用可能不会产生最佳结果。

个人和敏感信息

  • 信息内容: 数据集不包含个人或敏感信息。

偏差、风险和限制

  • 偏差和风险: 用户应注意在翻译过程中可能引入的潜在偏差。
  • 限制: 包括专注于最高评级的对话路径。

建议

  • 使用建议: 用户在使用数据集进行模型训练和应用时应考虑潜在的偏差和限制。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作