SKA-Bench
收藏SKA-Bench数据集概述
数据集简介
- 数据集名称:SKA-Bench
- 用途:用于评估大型语言模型(LLMs)在结构化知识理解方面的细粒度基准测试
环境配置
- Python版本:3.9.0
- 依赖库:
- openai
- asyncio
- uvloop
测试集构建
测试类型
- 噪音鲁棒性
- 顺序不敏感性
- 信息整合
构建命令
bash python process_dataset.py --type KG --sequence random --scale 1k
参数说明
type:数据类型(如KG、Table等)sequence:序列类型(如random、original等)scale:数据规模(如1k、4k等)
负样本拒绝测试
bash python process_dataset.py --type Table --sequence original --scale 4k --negative_rejection negative_rejection python process_dataset.py --type KG --sequence random --scale 4k --negative_rejection negative_rejection python process_dataset.py --type Table+Text --sequence original --scale 16k --negative_rejection negative_rejection python process_dataset.py --type KG+Text --sequence random --scale 16k --negative_rejection negative_rejection
评估脚本
常规测试
bash python evaluate.py --type <type> --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k.json
负样本拒绝测试
bash python evaluate_negative.py --type KG --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG_random_42_4k_negative_rejection.json python evaluate_negative.py --type Table --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table_original_42_4k_negative_rejection.json python evaluate_negative.py --type KG+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/KG+Text_random_42_16k_negative_rejection.json python evaluate_negative.py --type Table+Text --api_key <api_key> --api_url <api_url> --model <model> --dataset_dir ./dataset/Table+Text_original_42_16k_negative_rejection.json
参数说明
<type>:数据类型<api_key>:API密钥<api_url>:API地址<model>:模型类型dataset_dir:数据集路径




