five

SebastianBodza/synthetic_RAG_dataset_ger_de_v02

收藏
Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SebastianBodza/synthetic_RAG_dataset_ger_de_v02
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三种风格的问题:implicit、search string和standard questions,以及正例和硬负例文档示例。此外,所有中间数据也被保留。RAG管线的基准测试显示了不同问题风格的不同结果。生成管线基于vLLM和Mixtral,并提供了一个GitHub链接。

该数据集包含三种风格的问题:implicit、search string和standard questions,以及正例和硬负例文档示例。此外,所有中间数据也被保留。RAG管线的基准测试显示了不同问题风格的不同结果。生成管线基于vLLM和Mixtral,并提供了一个GitHub链接。
提供机构:
SebastianBodza
原始信息汇总

合成德语RAG数据集

数据集信息

  • 语言: 德语
  • 许可证: CC BY-SA 4.0

特征

  • topic: 字符串
  • questions: 字符串
  • gen_questions: 字符串
  • Imperative Form: 字符串
  • Question: 字符串
  • Search String: 字符串
  • Positive: 字符串
  • Hard Negative: 字符串
  • raw_texts: 字符串
  • index: 整数

分割

  • filtered:
    • 字节数: 513227802
    • 样本数: 79637
  • raw:
    • 字节数: 300511330
    • 样本数: 82651

大小

  • 下载大小: 338673463
  • 数据集大小: 813739132

配置

  • config_name: default
    • data_files:
      • split: filtered
        • path: data/filtered-*
      • split: raw
        • path: data/raw-*

数据集描述

该数据集包含三种风格的问句:“隐式”、“搜索字符串”和“标准问句”,以及额外的正例和硬负例文档示例。此外,所有中间数据均被保留。RAG管道的基准测试显示了不同问句风格的不同结果。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作