kwaikeg/CogBench
收藏数据集概述
基本信息
- 许可证: cc-by-nc-sa-4.0
- 任务类别: text-generation
- 语言: 中文, 英文
- 数据量: 1K<n<10K
数据集描述
CogBench 是一个包含22,000条双语数据的数据集,旨在评估大型语言模型(LLMs)的认知动态。数据集分为两部分:CogBench<sub>a</sub> 用于文章,CogBench<sub>v</sub> 用于短视频。评估指标包括真实性(Authenticity)和合理性(Rationality),分别评估代理的评分和推理能力。
数据统计
| 类型 | 实例数量 | 认知问卷数量 | 角色数量 | 信息流数量 | 平均长度(词) | 每迭代信息流数量 |
|---|---|---|---|---|---|---|
| CogBench<sub>a</sub> | 11,000 | 50 | 20 | 500 | 2,044.54 | 1 |
| CogBench<sub>v</sub> | 11,000 | 50 | 20 | 5,000 | 289.60 | 10 |
评估结果
不同代理在CogBench中的表现详见我们的论文。以下是使用真实性(Authenticity)和合理性(Rationality)指标的评估结果:
真实性(Authenticity)
| 方法 | CogBench<sub>a</sub> avg. | CogBench<sub>a</sub> 5th | CogBench<sub>a</sub> 10th | CogBench<sub>v</sub> avg. | CogBench<sub>v</sub> 5th | CogBench<sub>v</sub> 10th |
|---|---|---|---|---|---|---|
| CoT | 0.182 | 0.192 | 0.091 | 0.153 | 0.302 | 0.131 |
| ReAct | 0.236 | 0.144 | 0.270 | 0.212 | 0.241 | 0.227 |
| Reflexion | 0.302 | 0.327 | 0.244 | 0.329 | 0.352 | 0.373 |
| CogGPT | 0.536 | 0.415 | 0.597 | 0.532 | 0.496 | 0.611 |
合理性(Rationality)
| 方法 | CogBench<sub>a</sub> avg. | CogBench<sub>a</sub> 5th | CogBench<sub>a</sub> 10th | CogBench<sub>v</sub> avg. | CogBench<sub>v</sub> 5th | CogBench<sub>v</sub> 10th |
|---|---|---|---|---|---|---|
| CoT | 2.925 | 2.883 | 3.167 | 3.058 | 3.767 | 3.083 |
| ReAct | 3.415 | 3.483 | 3.483 | 3.535 | 3.800 | 3.800 |
| Reflexion | 3.658 | 3.917 | 3.533 | 3.888 | 3.967 | 3.917 |
| CogGPT | 4.118 | 4.117 | 4.300 | 4.145 | 4.183 | 4.317 |
数据格式
CogBench 支持中英文,分别存储在 english 和 chinese 文件夹中。
profile.json
记录了20个角色生成的任务角色信息,每个数据是一个字典,包含角色的详细信息。
json { "Name": "", "Gender": "", "Age": "", "Place of Birth": "", "Occupation": "", "Height": "", "Weight": "", "Distinguishing Marks": "", "Personality": "", "Hobbies": "", "Skills": "", "Dislikes": "", "Values": "", "Religious Beliefs": "", "Interpersonal Relations": "", "Flaws": "", "External Environment": "", "Financial Status": "", "Family Background": "", "Educational Background": "", "Significant Experience": "", "Future Outlook": "" }
cogbench_a.json 和 cogbench_v.json
记录了50个主题的总体认知测试。
json { "iteration": 0, "category": "", "topic": "", "information_flow": [], "questionnaire": [ { "question": "" }, ... ] }
eval_cogbench_a.json 和 eval_cogbench_v.json
记录了标注结果,包含实验结果的额外键值对。
json { "iteration": 0, "category": "", "topic": "", "information_flow": [], "profile": {}, "questionnaire": [ { "question": "", "answer": { "human_rating": 2, "CoT": { "rating": 2, "reason": "", "rationality": 1 }, ... }, ... ] }
评估方法
使用以下命令获取 CoT 的总体评估分数,包括真实性和合理性。
bash python evaluation.py --file_path english/eval_cogbench_v.json --method CoT --authenticity --rationality
参数解释:
--file_path: 标注结果的文件路径。--method: 评估的代理名称。--authenticity: 是否计算真实性指标。--rationality: 是否计算合理性指标。
最终评估分数如下:
bash ======= CoT Authenticity ======= Average authenticity: 0.15277666156947955 5th iteration authenticity: 0.3023255813953488 10th iteration authenticity: 0.13135593220338992 ======= CoT Rationality ======= Average rationality: 3.058333333333333 5th iteration rationality: 3.7666666666666666 10th iteration rationality: 3.0833333333333335



