five

MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1

收藏
Hugging Face2024-03-25 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/MarkrAI/AutoRAG-evaluation-2024-LLM-paper-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于AutoRAG优化和基准测试的示例数据集,基于2024年LLM研究文章(论文)创建。数据集包含两个配置:corpus和qa。corpus配置包含文档ID、内容和元数据(如创建时间、文件名、文件路径、文件大小、文件类型、最后访问时间和最后修改时间)。qa配置包含问题ID、查询、检索真实值和生成真实值。数据集是使用GPT-4和Marker Inc.技术100%合成的,首先从arxiv收集了110篇最新的LLM论文,使用Marker OCR模型提取文本,并使用Langchain的MarkdownSplitter和TokenSplitter进行分块处理。为了提高质量,删除了所有研究文章中的参考文献,并随机选择了520个段落生成问题。最后,使用自定义管道和GPT-4生成各种独特的问题。

该数据集是一个用于AutoRAG优化和基准测试的示例数据集,基于2024年LLM研究文章(论文)创建。数据集包含两个配置:corpus和qa。corpus配置包含文档ID、内容和元数据(如创建时间、文件名、文件路径、文件大小、文件类型、最后访问时间和最后修改时间)。qa配置包含问题ID、查询、检索真实值和生成真实值。数据集是使用GPT-4和Marker Inc.技术100%合成的,首先从arxiv收集了110篇最新的LLM论文,使用Marker OCR模型提取文本,并使用Langchain的MarkdownSplitter和TokenSplitter进行分块处理。为了提高质量,删除了所有研究文章中的参考文献,并随机选择了520个段落生成问题。最后,使用自定义管道和GPT-4生成各种独特的问题。
提供机构:
MarkrAI
原始信息汇总

数据集概述

许可证

  • 该数据集遵循 cc-by-nc-sa-4.0 许可证。

数据集配置

配置名称:corpus

  • 特征
    • doc_id:文档ID,数据类型为字符串。
    • contents:文档内容,数据类型为字符串。
    • metadata:元数据,包含以下字段:
      • creation_datetime:创建时间,数据类型为字符串。
      • file_name:文件名,数据类型为字符串。
      • file_path:文件路径,数据类型为字符串。
      • file_size:文件大小,数据类型为int64。
      • file_type:文件类型,数据类型为null。
      • last_accessed_datetime:最后访问时间,数据类型为字符串。
      • last_modified_datetime:最后修改时间,数据类型为字符串。
  • 分割
    • train:训练集,包含11237324字节和8576个样本。
  • 下载大小:4114384字节。
  • 数据集大小:11237324字节。

配置名称:qa

  • 特征
    • qid:问题ID,数据类型为字符串。
    • query:问题内容,数据类型为字符串。
    • retrieval_gt:检索结果,数据类型为字符串序列。
    • generation_gt:生成结果,数据类型为字符串序列。
  • 分割
    • train:训练集,包含186908字节和520个样本。
  • 下载大小:121089字节。
  • 数据集大小:186908字节。

数据文件配置

  • 配置名称:qa
    • train:训练集文件路径为 qa/train-*
  • 配置名称:corpus
    • train:训练集文件路径为 corpus/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作