hlhdatscience/guanaco-spanish-dataset
收藏Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hlhdatscience/guanaco-spanish-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是timdettmers/openassistant-guanaco的一个子集,仅包含对话树中评分最高的路径,并已通过GPT 3.5 turbo翻译成西班牙语。数据集包含2,369个样本,分别占原数据集中训练集和测试集的40%和41%。数据集适用于Open Assistant应用程序的模型训练和评估。
提供机构:
hlhdatscience
原始信息汇总
数据集卡片 for "guanaco-spanish-dataset"
数据集详情
- 语言: 西班牙语
- 许可证: Apache 2.0
- 数据集名称: guanaco-spanish-dataset
- 配置:
- 默认配置:
- 数据文件:
- 训练集:
data/train-* - 测试集:
data/test-*
- 训练集:
- 数据文件:
- 默认配置:
- 数据集信息:
- 特征:
- 文本: 字符串类型
- 分区: 字符串类型
- 分割:
- 训练集:
- 字节数: 4071580
- 样本数: 2173
- 测试集:
- 字节数: 333135
- 样本数: 196
- 训练集:
- 下载大小: 2267485
- 数据集大小: 4404715
- 特征:
数据集创建
- 数据集来源: 原始数据集是
timdettmers/openassistant-guanaco的一个子集,该数据集也是 Open Assistant 数据集的一个子集。 - 数据集创建理由: 该子集旨在提供原始 Open Assistant 数据集中最高评级的对话路径的聚焦集合,翻译过程使用 GPT 3.5 turbo 完成。
- 数据收集和处理: 源数据是
timdettmers/openassistant-guanaco数据集的一个子集,翻译过程涉及 GPT 3.5 turbo。 - 源数据生产者: 原始数据生产者包括 Open Assistant 数据集的贡献者,翻译过程涉及使用 GPT 3.5 turbo。
数据集结构
- 数据集组织: 数据集按对话路径组织,每个路径包含最高评级的样本。样本是通过 GPT 3.5 turbo 生成的翻译版本。
使用
- 直接使用: 该数据集适用于在 Open Assistant 应用场景中训练和评估模型,专注于对话树中最高评级的路径。
- 超出范围使用: 在 Open Assistant 应用场景之外的使用可能不会产生最佳结果。
个人和敏感信息
- 信息内容: 数据集不包含个人或敏感信息。
偏差、风险和限制
- 偏差和风险: 用户应注意在翻译过程中可能引入的潜在偏差。
- 限制: 包括专注于最高评级的对话路径。
建议
- 使用建议: 用户在使用数据集进行模型训练和应用时应考虑潜在的偏差和限制。



