philschmid/easyrag-mini-wikipedia
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/easyrag-mini-wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
EasyRag评估数据集用于评估RAG(Retrieval-Augmented Generation)管道。该数据集包含约900个来自Wikipedia文章的问题和真实答案。此外,数据集还包含一个用于检索的文档配置。用户可以通过索引文档并使用问题和真实答案来评估其RAG管道的性能。该数据集基于Kaggle上的Question-Answer Dataset进行了修改,并遵循CC BY-SA 3.0许可证。
EasyRag评估数据集用于评估RAG(Retrieval-Augmented Generation)管道。该数据集包含约900个来自Wikipedia文章的问题和真实答案。此外,数据集还包含一个用于检索的文档配置。用户可以通过索引文档并使用问题和真实答案来评估其RAG管道的性能。该数据集基于Kaggle上的Question-Answer Dataset进行了修改,并遵循CC BY-SA 3.0许可证。
提供机构:
philschmid
原始信息汇总
EasyRag eval dataset for Wikipedia
数据集概述
配置信息
-
documents
- 特征
- document: 数据类型为 string
- 分割
- full: 字节数为 1263393,示例数为 3200
- 下载大小: 782809 字节
- 数据集大小: 1263393 字节
- 特征
-
questions
- 特征
- question: 数据类型为 string
- ground_truth: 数据类型为 string
- 分割
- full: 字节数为 73702,示例数为 918
- mini_100: 字节数为 8028.5403050108935,示例数为 100
- 下载大小: 56533 字节
- 数据集大小: 81730.54030501089 字节
- 特征
数据文件配置
-
documents
- full: 路径为 documents/full-*
-
questions
- full: 路径为 questions/full-*
- mini_100: 路径为 questions/mini_100-*
数据集来源
该数据集源自 Question-Answer Dataset,并经过轻微修改为 rag-datasets/mini_wikipedia。
许可信息
该修改数据集遵循 CC BY-SA 3.0 许可协议,与源数据集的许可一致。



