DIA Benchmark Dataset
收藏Dynamic Intelligence Assessment Benchmark
描述
DIA Benchmark Dataset 是一个用于评估大型语言模型(LLMs)问题解决能力的基准工具,包含150个动态问题生成器。主要关注CTF风格(Capture the Flag)挑战,涉及数学、密码学、网络安全和计算机科学领域。问题生成器由行业专家手动开发,并经过多人测试以发现错误和边缘情况。答案通常包含大量字符和大数字,正确猜测的可能性极低。该仓库包含生成的问答对,可发送给AI模型进行运行和评估输出。仓库包含多个生成的测试实例,以提高测量的准确性。
文件结构
| 文件名 | 实例数 | 测试数 |
|---|---|---|
| DIA-bench-1.json | 1 | 150 |
| DIA-bench-5.json | 5 | 750 |
| DIA-bench-10.json | 10 | 1500 |
| DIA-bench-20.json | 20 | 3000 |
| DIA-bench-100.json | 100 | 15000 |
架构
数据集由专家手动创建,并针对多个生成的问题实例进行验证。
评估
我们在DIA数据集上测试了7个最先进的LLM模型,并通过API调用进行测试,ChatGPT-4o通过其聊天界面手动测试。请注意,这些测试是在k=5数据集上进行的,时间为2024年10月。
测试
1. 下载仓库
通过git: bash git clone https://github.com/DIA-Bench/DIA-Bench.git
或通过下载ZIP文件: Code > Download ZIP
2. 配置LLM提供商
选择一个提供商来测试LLMs。由于大多数模型要么很大,要么无法下载到本地运行,因此不太可能在本地机器上运行。
对于GPT模型的测试,我们推荐使用https://openai.com/api/。对于其他模型,我们使用了https://openrouter.ai/。
您需要注册、购买积分,并在DIA_bench_evalutor.py脚本中填写必要的字段,包括测试的模型。
3. 运行基准测试
运行基准测试并等待结果。请注意,运行所有测试可能需要很长时间。 bash python DIA_bench_evalutor.py
最终输出将包含模型的统计数据,包括可靠性分数(RS)、置信指数(CI)、正确答案数量、跳过答案数量和错误答案数量。




