SebastianBodza/synthetic_RAG_dataset_ger_de_v02
收藏Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SebastianBodza/synthetic_RAG_dataset_ger_de_v02
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三种风格的问题:implicit、search string和standard questions,以及正例和硬负例文档示例。此外,所有中间数据也被保留。RAG管线的基准测试显示了不同问题风格的不同结果。生成管线基于vLLM和Mixtral,并提供了一个GitHub链接。
该数据集包含三种风格的问题:implicit、search string和standard questions,以及正例和硬负例文档示例。此外,所有中间数据也被保留。RAG管线的基准测试显示了不同问题风格的不同结果。生成管线基于vLLM和Mixtral,并提供了一个GitHub链接。
提供机构:
SebastianBodza
原始信息汇总
合成德语RAG数据集
数据集信息
- 语言: 德语
- 许可证: CC BY-SA 4.0
特征
- topic: 字符串
- questions: 字符串
- gen_questions: 字符串
- Imperative Form: 字符串
- Question: 字符串
- Search String: 字符串
- Positive: 字符串
- Hard Negative: 字符串
- raw_texts: 字符串
- index: 整数
分割
- filtered:
- 字节数: 513227802
- 样本数: 79637
- raw:
- 字节数: 300511330
- 样本数: 82651
大小
- 下载大小: 338673463
- 数据集大小: 813739132
配置
- config_name: default
- data_files:
- split: filtered
- path: data/filtered-*
- split: raw
- path: data/raw-*
- split: filtered
- data_files:
数据集描述
该数据集包含三种风格的问句:“隐式”、“搜索字符串”和“标准问句”,以及额外的正例和硬负例文档示例。此外,所有中间数据均被保留。RAG管道的基准测试显示了不同问句风格的不同结果。



