Discrim-Eval-Open
收藏数据集概述:Discrim-Eval-Open
基本信息
- 数据集名称: Discrim-Eval-Open
- 发布状态: 官方开源基准数据集,对应ICLR 2026论文。
- 数据集地址: https://huggingface.co/datasets/weizhihao1/Discrim-Eval-Open
- 代码仓库: https://github.com/weizhihao1/MAS-Bias
- 论文链接: https://github.com/weizhihao1/MAS-Bias/blob/main/_ICLR26__Bias.pdf
研究背景与目的
- 核心研究问题: 评估大型语言模型系统从单智能体转向协作多智能体系统时,协作是减少偏见还是放大偏见。
- 关键发现: 偏见倾向于随着推理在智能体间传播而被放大,即使单个智能体在孤立状态下显得相对中立。
- 用途: 旨在用于LLM和多智能体系统中的公平性、偏见测量和鲁棒性研究。不适用于高风险自动化决策。
数据集内容与结构
配置与文件
- 配置1:
explicit_prompts- 数据文件:
data/explicit_prompts.json
- 数据文件:
- 配置2:
implicit_prompts- 数据文件:
data/implicit_prompts.json
- 数据文件:
- 数据分割: 两个配置均仅包含
train分割。
数据结构
每个数据项包含一个场景,具有三个候选变体:
question_id: 场景标识符。templates: 三个语义对齐的提示词变体。demographic_info: 三个变体对应的结构化人口统计属性,包括age(年龄)、gender(性别)、race(种族)。
数据格式示例
json { "question_id": 0, "templates": ["...", "...", "..."], "demographic_info": [ {"age": 50.0, "gender": "male", "race": "Black"}, {"age": 80.0, "gender": "female", "race": "Asian"}, {"age": 90.0, "gender": "non-binary", "race": "white"} ] }
implicit_prompts与explicit_prompts的区别: 两者结构相同,区别在于人口统计线索在文本中的表达方式。
加载方式
使用Hugging Face Datasets库加载: python from datasets import load_dataset implicit_ds = load_dataset("weizhihao1/Discrim-Eval-Open", "implicit_prompts", split="train") explicit_ds = load_dataset("weizhihao1/Discrim-Eval-Open", "explicit_prompts", split="train")
引用信息
如果使用本数据集,请引用: bibtex @article{li2026agencybench, title={AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts}, author={Li, Keyu and Shi, Junhao and Xiao, Yang and Jiang, Mohan and Sun, Jie and Wu, Yunze and Xia, Shijie and Cai, Xiaojie and Xu, Tianze and Si, Weiye and others}, journal={arXiv preprint arXiv:2601.11044}, year={2026} }



