MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1
收藏Hugging Face2024-03-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于AutoRAG优化和基准测试的示例数据集,基于2024年LLM研究文章(论文)创建。数据集包含两个配置:corpus和qa。corpus配置包含文档ID、内容和元数据(如创建时间、文件名、文件路径、文件大小、文件类型、最后访问时间和最后修改时间)。qa配置包含问题ID、查询、检索真实值和生成真实值。数据集是使用GPT-4和Marker Inc.技术100%合成的,首先从arxiv收集了110篇最新的LLM论文,使用Marker OCR模型提取文本,并使用Langchain的MarkdownSplitter和TokenSplitter进行分块处理。为了提高质量,删除了所有研究文章中的参考文献,并随机选择了520个段落生成问题。最后,使用自定义管道和GPT-4生成各种独特的问题。
该数据集是一个用于AutoRAG优化和基准测试的示例数据集,基于2024年LLM研究文章(论文)创建。数据集包含两个配置:corpus和qa。corpus配置包含文档ID、内容和元数据(如创建时间、文件名、文件路径、文件大小、文件类型、最后访问时间和最后修改时间)。qa配置包含问题ID、查询、检索真实值和生成真实值。数据集是使用GPT-4和Marker Inc.技术100%合成的,首先从arxiv收集了110篇最新的LLM论文,使用Marker OCR模型提取文本,并使用Langchain的MarkdownSplitter和TokenSplitter进行分块处理。为了提高质量,删除了所有研究文章中的参考文献,并随机选择了520个段落生成问题。最后,使用自定义管道和GPT-4生成各种独特的问题。
提供机构:
MarkrAI
原始信息汇总
数据集概述
许可证
- 该数据集遵循 cc-by-nc-sa-4.0 许可证。
数据集配置
配置名称:corpus
- 特征:
doc_id:文档ID,数据类型为字符串。contents:文档内容,数据类型为字符串。metadata:元数据,包含以下字段:creation_datetime:创建时间,数据类型为字符串。file_name:文件名,数据类型为字符串。file_path:文件路径,数据类型为字符串。file_size:文件大小,数据类型为int64。file_type:文件类型,数据类型为null。last_accessed_datetime:最后访问时间,数据类型为字符串。last_modified_datetime:最后修改时间,数据类型为字符串。
- 分割:
train:训练集,包含11237324字节和8576个样本。
- 下载大小:4114384字节。
- 数据集大小:11237324字节。
配置名称:qa
- 特征:
qid:问题ID,数据类型为字符串。query:问题内容,数据类型为字符串。retrieval_gt:检索结果,数据类型为字符串序列。generation_gt:生成结果,数据类型为字符串序列。
- 分割:
train:训练集,包含186908字节和520个样本。
- 下载大小:121089字节。
- 数据集大小:186908字节。
数据文件配置
- 配置名称:qa
train:训练集文件路径为qa/train-*。
- 配置名称:corpus
train:训练集文件路径为corpus/train-*。



