arcee-ai/synthetic-data-gen
收藏Hugging Face2023-09-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arcee-ai/synthetic-data-gen
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于初步研究的合成数据集,来源于arcee的开源DALM项目。该数据集包含标题、摘要、问题和答案四个特征,均为字符串类型。数据集分为训练集和测试集,训练集包含798,682个样本,测试集包含200,278个样本。该数据集用于实现E2E Rag的微调,涉及生成器和检索器的跨梯度传播。
提供机构:
arcee-ai
原始信息汇总
数据集概述
配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
- Title:字符串类型
- Abstract:字符串类型
- Question:字符串类型
- Answer:字符串类型
-
分割:
- 训练集:
- 字节数:633145356
- 样本数:798682
- 测试集:
- 字节数:158654392
- 样本数:200278
- 训练集:
-
下载大小:398488431 字节
-
数据集大小:791799748 字节



