Isotonic/human_assistant_conversation_deduped
收藏Hugging Face2023-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Isotonic/human_assistant_conversation_deduped
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Isotonic/human_assistant_conversation的去重版本,去重时使用了最大Jaccard相似度为0.75的标准。数据集包含对话中的提示、响应和文本,支持文本生成和对话任务,语言涵盖英语、西班牙语和中文。数据集分为训练集、测试集和验证集,样本数量分别为586784、73349和73348。
提供机构:
Isotonic
原始信息汇总
数据集概述
基本信息
- 许可证: afl-3.0
- 数据集大小: 1337441467.8113883 字节
- 下载大小: 701202899 字节
数据结构
- 特征:
prompt: 字符串类型response: 字符串类型text: 字符串类型
数据分割
- 训练集:
- 示例数量: 586784
- 数据大小: 1069951715.5157907 字节
- 测试集:
- 示例数量: 73349
- 数据大小: 133745787.85612378 字节
- 验证集:
- 示例数量: 73348
- 数据大小: 133743964.43947384 字节
任务类别
- 文本生成
- 对话系统
语言
- 英语 (en)
- 西班牙语 (es)
- 中文 (zh)
数据集规模
- 100K<n<1M 示例



