BroDeadlines/EVAL.NEW.raptor.IR_evaluation

Name: BroDeadlines/EVAL.NEW.raptor.IR_evaluation
Creator: BroDeadlines
Published: 2024-08-17 07:36:53
License: 暂无描述

Hugging Face2024-08-17 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/BroDeadlines/EVAL.NEW.raptor.IR_evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如问题、答案、URL、组、文档ID、元数据和评估等。评估部分包含内容、文档ID和分数等子特征。数据集有多个分割，每个分割都有特定的字节数和示例数。此外，数据集还提供了配置信息，包括配置名称和数据文件路径。评估部分的JSON数据详细描述了QA、IR、BLEU、ROUGE-L、ES、RAG和RAPTOR等评估指标和相关信息。

提供机构：

BroDeadlines

原始信息汇总

数据集概述

数据集信息

特征

question: 类型为字符串。
answer: 类型为字符串。
url: 类型为字符串。
group: 类型为字符串。
doc_id: 类型为字符串。
metadata: 类型为字符串。
evaluation: 包含以下子特征：
- content: 类型为字符串。
- doc_id: 类型为字符串。
- score: 类型为浮点数。
easy_shards: 类型为整数。
hard_shards: 类型为整数。

数据分割

TEST.medium_tdt_raptor: 包含144个样本，大小为896529字节。
TEST.medium_tdt_raptor_vi: 包含144个样本，大小为1096139字节。
TEST.Hyde.medium_tdt_raptor_vi: 包含144个样本，大小为2045437字节。
TEST.Hyde.medium_tdt_proposition_raptor_vi: 包含144个样本，大小为1819808字节。

数据集大小

下载大小: 738756字节。
数据集总大小: 5857913字节。

配置

config_name: default
- 数据文件路径:
  - TEST.medium_tdt_raptor: data/TEST.medium_tdt_raptor-*
  - TEST.medium_tdt_raptor_vi: data/TEST.medium_tdt_raptor_vi-*
  - TEST.Hyde.medium_tdt_raptor_vi: data/TEST.Hyde.medium_tdt_raptor_vi-*
  - TEST.Hyde.medium_tdt_proposition_raptor_vi: data/TEST.Hyde.medium_tdt_proposition_raptor_vi-*

评估

QA:
- repo: BroDeadlines/QA.FQA_tu_van_hoc_duong
- split: INDEX.medium_index_TDT
- size: 144
IR:
- k_6_easy:
  - precision: 0.636
  - recall: 0.834
  - map_score: 0.29
  - relevant_retrieved: 131
  - num_retrieved: 206
  - nulls: 0
- k_7_easy:
  - precision: 0.624
  - recall: 0.898
  - map_score: 0.291
  - relevant_retrieved: 141
  - num_retrieved: 226
  - nulls: 0
- k_8_easy:
  - precision: 0.628
  - recall: 0.936
  - map_score: 0.286
  - relevant_retrieved: 147
  - num_retrieved: 234
  - nulls: 0
- k_6_hard:
  - precision: 0.636
  - recall: 0.215
  - map_score: 0.29
  - relevant_retrieved: 131
  - num_retrieved: 206
  - nulls: 0
- k_7_hard:
  - precision: 0.624
  - recall: 0.231
  - map_score: 0.291
  - relevant_retrieved: 141
  - num_retrieved: 226
  - nulls: 0
- k_8_hard:
  - precision: 0.628
  - recall: 0.241
  - map_score: 0.286
  - relevant_retrieved: 147
  - num_retrieved: 234
  - nulls: 0
BLEU:
- BLEU_4_avg: 0.076
- BLEU_4_median: 0.004
- BLEU_avg: 0.19
- BLEU_median: 0.166
ROUGE-L:
- ROUGE_L_precision_avg: 0.418
- ROUGE_L_precision_median: 0.393
- ROUGE_L_recall_avg: 0.339
- ROUGE_L_recall_median: 0.327
- ROUGE_L_fmeasure_avg: 0.32
- ROUGE_L_fmeasure_median: 0.308
ES:
- text_idx: text-raptor-medium_index_tdt_vi
- vec_idx: vec-raptor-medium_index_tdt_vi
- size: 1531
RAG:
- algos: ["Hyde", "RAPTOR", "hybrid search"]
- LLM: gemini-1.5-flash-latest
- embedding: models/embedding-001
RAPTOR:
- SUM_REPO: BroDeadlines/TEST.NEW.PART_SUMMERIZE.raptor.edu_tdt_data
- CLU_REPO: BroDeadlines/TEST.NEW.PART_CLUSTER.raptor.edu_tdt_data
- split: TEST.medium_tdt_raptor_vi
- level: 3
- LLM: gemini-1.5-flash-latest
- embedding: models/embedding-001
- chunk_size: 400
- overlap: 0
- separators: [".", "

", " "]

5,000+

优质数据集

54 个

任务类型

进入经典数据集