MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1

Name: MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1
Creator: MarkrAI
Published: 2024-03-25 07:29:41
License: 暂无描述

Hugging Face2024-03-25 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于AutoRAG优化和基准测试的示例数据集，基于2024年LLM研究文章（论文）创建。数据集包含两个配置：corpus和qa。corpus配置包含文档ID、内容和元数据（如创建时间、文件名、文件路径、文件大小、文件类型、最后访问时间和最后修改时间）。qa配置包含问题ID、查询、检索真实值和生成真实值。数据集是使用GPT-4和Marker Inc.技术100%合成的，首先从arxiv收集了110篇最新的LLM论文，使用Marker OCR模型提取文本，并使用Langchain的MarkdownSplitter和TokenSplitter进行分块处理。为了提高质量，删除了所有研究文章中的参考文献，并随机选择了520个段落生成问题。最后，使用自定义管道和GPT-4生成各种独特的问题。

提供机构：

MarkrAI

原始信息汇总

数据集概述

许可证

该数据集遵循 cc-by-nc-sa-4.0 许可证。

数据集配置

配置名称：corpus

特征：
- doc_id：文档ID，数据类型为字符串。
- contents：文档内容，数据类型为字符串。
- metadata：元数据，包含以下字段：
  - creation_datetime：创建时间，数据类型为字符串。
  - file_name：文件名，数据类型为字符串。
  - file_path：文件路径，数据类型为字符串。
  - file_size：文件大小，数据类型为int64。
  - file_type：文件类型，数据类型为null。
  - last_accessed_datetime：最后访问时间，数据类型为字符串。
  - last_modified_datetime：最后修改时间，数据类型为字符串。
分割：
- train：训练集，包含11237324字节和8576个样本。
下载大小：4114384字节。
数据集大小：11237324字节。

配置名称：qa

特征：
- qid：问题ID，数据类型为字符串。
- query：问题内容，数据类型为字符串。
- retrieval_gt：检索结果，数据类型为字符串序列。
- generation_gt：生成结果，数据类型为字符串序列。
分割：
- train：训练集，包含186908字节和520个样本。
下载大小：121089字节。
数据集大小：186908字节。

数据文件配置

配置名称：qa
- train：训练集文件路径为 qa/train-*。
配置名称：corpus
- train：训练集文件路径为 corpus/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集