five

kwaikeg/CogBench

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kwaikeg/CogBench
下载链接
链接失效反馈
官方服务:
资源简介:
CogBench是由KwaiKEG开源的一系列与代理相关的工作CogGPT引入的基准测试,包含22,000条双语数据,用于评估大语言模型的认知动态。数据集分为两部分:CogBench<sub>a</sub>用于文章,CogBench<sub>v</sub>用于短视频。评估指标包括真实性和合理性,分别评估代理的评分和推理能力。数据格式支持中英文,分别存储在`english/`和`chinese/`文件夹中。

CogBench是由KwaiKEG开源的一系列与代理相关的工作CogGPT引入的基准测试,包含22,000条双语数据,用于评估大语言模型的认知动态。数据集分为两部分:CogBench<sub>a</sub>用于文章,CogBench<sub>v</sub>用于短视频。评估指标包括真实性和合理性,分别评估代理的评分和推理能力。数据格式支持中英文,分别存储在`english/`和`chinese/`文件夹中。
提供机构:
kwaikeg
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-sa-4.0
  • 任务类别: text-generation
  • 语言: 中文, 英文
  • 数据量: 1K<n<10K

数据集描述

CogBench 是一个包含22,000条双语数据的数据集,旨在评估大型语言模型(LLMs)的认知动态。数据集分为两部分:CogBench<sub>a</sub> 用于文章,CogBench<sub>v</sub> 用于短视频。评估指标包括真实性(Authenticity)和合理性(Rationality),分别评估代理的评分和推理能力。

数据统计

类型 实例数量 认知问卷数量 角色数量 信息流数量 平均长度(词) 每迭代信息流数量
CogBench<sub>a</sub> 11,000 50 20 500 2,044.54 1
CogBench<sub>v</sub> 11,000 50 20 5,000 289.60 10

评估结果

不同代理在CogBench中的表现详见我们的论文。以下是使用真实性(Authenticity)和合理性(Rationality)指标的评估结果:

真实性(Authenticity)

方法 CogBench<sub>a</sub> avg. CogBench<sub>a</sub> 5th CogBench<sub>a</sub> 10th CogBench<sub>v</sub> avg. CogBench<sub>v</sub> 5th CogBench<sub>v</sub> 10th
CoT 0.182 0.192 0.091 0.153 0.302 0.131
ReAct 0.236 0.144 0.270 0.212 0.241 0.227
Reflexion 0.302 0.327 0.244 0.329 0.352 0.373
CogGPT 0.536 0.415 0.597 0.532 0.496 0.611

合理性(Rationality)

方法 CogBench<sub>a</sub> avg. CogBench<sub>a</sub> 5th CogBench<sub>a</sub> 10th CogBench<sub>v</sub> avg. CogBench<sub>v</sub> 5th CogBench<sub>v</sub> 10th
CoT 2.925 2.883 3.167 3.058 3.767 3.083
ReAct 3.415 3.483 3.483 3.535 3.800 3.800
Reflexion 3.658 3.917 3.533 3.888 3.967 3.917
CogGPT 4.118 4.117 4.300 4.145 4.183 4.317

数据格式

CogBench 支持中英文,分别存储在 englishchinese 文件夹中。

profile.json

记录了20个角色生成的任务角色信息,每个数据是一个字典,包含角色的详细信息。

json { "Name": "", "Gender": "", "Age": "", "Place of Birth": "", "Occupation": "", "Height": "", "Weight": "", "Distinguishing Marks": "", "Personality": "", "Hobbies": "", "Skills": "", "Dislikes": "", "Values": "", "Religious Beliefs": "", "Interpersonal Relations": "", "Flaws": "", "External Environment": "", "Financial Status": "", "Family Background": "", "Educational Background": "", "Significant Experience": "", "Future Outlook": "" }

cogbench_a.json 和 cogbench_v.json

记录了50个主题的总体认知测试。

json { "iteration": 0, "category": "", "topic": "", "information_flow": [], "questionnaire": [ { "question": "" }, ... ] }

eval_cogbench_a.json 和 eval_cogbench_v.json

记录了标注结果,包含实验结果的额外键值对。

json { "iteration": 0, "category": "", "topic": "", "information_flow": [], "profile": {}, "questionnaire": [ { "question": "", "answer": { "human_rating": 2, "CoT": { "rating": 2, "reason": "", "rationality": 1 }, ... }, ... ] }

评估方法

使用以下命令获取 CoT 的总体评估分数,包括真实性和合理性。

bash python evaluation.py --file_path english/eval_cogbench_v.json --method CoT --authenticity --rationality

参数解释:

  • --file_path: 标注结果的文件路径。
  • --method: 评估的代理名称。
  • --authenticity: 是否计算真实性指标。
  • --rationality: 是否计算合理性指标。

最终评估分数如下:

bash ======= CoT Authenticity ======= Average authenticity: 0.15277666156947955 5th iteration authenticity: 0.3023255813953488 10th iteration authenticity: 0.13135593220338992 ======= CoT Rationality ======= Average rationality: 3.058333333333333 5th iteration rationality: 3.7666666666666666 10th iteration rationality: 3.0833333333333335

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作