five

neural-bridge/rag-dataset-1200|自然语言处理数据集|机器学习数据集

收藏
hugging_face2024-02-05 更新2024-03-04 收录
自然语言处理
机器学习
下载链接:
https://hf-mirror.com/datasets/neural-bridge/rag-dataset-1200
下载链接
链接失效反馈
资源简介:
检索增强生成(RAG)数据集1200是一个为RAG优化模型设计的英文数据集,由Neural Bridge AI构建,并在Apache 2.0许可证下发布。该数据集包含1200个条目,每个条目包含“context”、“question”和“answer”字段。上下文数据来自Falcon RefinedWeb,问题和答案由GPT-4生成。数据集分为训练集和测试集,分别包含960和240个条目。文本为英文,数据集在Apache 2.0许可证下发布。
提供机构:
neural-bridge
原始信息汇总

数据集概述

数据集名称

Retrieval-Augmented Generation (RAG) Dataset 1200

数据集描述

  • 用途:设计用于RAG优化模型,增强大型语言模型(LLMs)通过外部权威知识库进行响应生成的能力。
  • 特点:通过访问外部知识源,提高模型输出的相关性、准确性和上下文特定性,无需重新训练模型。

数据集特征

  • context:字符串类型,包含一系列令牌。
  • question:字符串类型,与上下文相关的问题。
  • answer:字符串类型,问题的答案。

数据集结构

  • 数据实例:每个数据点包含一个上下文、一个问题及其答案。
  • 数据字段
    • context:字符串,来自Falcon RefinedWeb的数据。
    • question:字符串,由GPT-4生成。
    • answer:字符串,由GPT-4生成。
  • 数据分割
    • 训练集:960个样本。
    • 测试集:240个样本。

语言

  • 语言:英语(en)。

许可证

  • 许可证:Apache-2.0。

数据集大小

  • 大小类别:1K<n<10K。

任务类别

  • 任务类别:问答(question-answering)。

源数据

  • 源数据:数据点的上下文来自Falcon RefinedWeb数据集。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录