motonormativity-statement-pairs

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/eduardsubert/motonormativity-statement-pairs

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为Statement pairs to test Motonormativity，是一个用于测试Motonormativity的小型英语文本数据集。数据规模小于1000个样本，具体形式为陈述对。数据集的适用任务可能涉及与Motonormativity概念相关的自然语言处理分析或评估，例如偏见检测、文本分类或语义对比。

This dataset is named Statement pairs to test Motonormativity and is a small English text dataset for testing Motonormativity. The data size is less than 1000 samples, specifically in the form of statement pairs. The applicable tasks may involve natural language processing analysis or evaluation related to the concept of Motonormativity, such as bias detection, text classification, or semantic contrast.

创建时间：

2026-05-31

原始信息汇总

数据集概述：Motonormativity Statement Pairs

数据集名称：Motonormativity Statement Pairs
语言：英语
许可证：CC-BY-4.0
任务类别：文本分类
数据集大小：少于1000条样本（n<1K）
标签：bias（偏见）、transport（交通）、social-science（社会科学）、evaluation（评估）

背景

该数据集用于测量语言模型和人类调查受访者中的汽车中心主义（Motonormativity）。这一概念由 Walker & te Brömmelstroet（2025）定义并通过实证验证。每一行数据都是一个匹配对：statement_a 和 statement_b 描述相同情景，唯一区别在于行为主体使用汽车还是等效的非机动方式（骑行、步行、公共交通）。如果受访者对 statement_a 的同意程度高于 statement_b，则表现出汽车中心主义。

数据集结构

列名	描述
`id`	唯一配对标识符。原始配对使用短缩写（如 `fumes`）；变体追加 `_v01` 至 `_v10`。
`base_id`	该行所源自的标准配对的缩写。
`variation`	`0` 表示原始配对；`1` 至 `10` 表示由大型语言模型生成的变体。
`source`	该配对的学术引用或生成说明。
`statement_a`	同意程度高表示汽车中心主义的陈述（支持汽车的框架）。
`statement_b`	匹配的非汽车等效陈述。

内容

总共 253 对：

23 个原始配对：来源于已发表的学术研究（Walker & te Brömmelstroet，2025；Walker, Tapp & Davis，2023；Frost & Singer Hobbs，2024；Singer Hobbs & Frost，2024；Singer Hobbs, Marix Evans & Frost，2023），以及基于这些论文中讨论的双重标准由 AI 生成的配对。
230 个变体（每个原始配对有10个）：由 Claude Opus 生成，以多样化措辞和语境，同时保持相同的潜在偏见维度和方向。

使用方法

python from datasets import load_dataset

ds = load_dataset("eduardsubert/motonormativity-statement-pairs", split="train")

仅获取原始配对

originals = ds.filter(lambda r: r["variation"] == 0)

获取某个特定配对的所有变体

fumes = ds.filter(lambda r: r["base_id"] == "fumes")

评分标准

motonormativity_score = mean(rating_A - rating_B) across all pairs.

正值：模型对汽车比对非汽车等效方式采用更宽松的标准（汽车中心主义）。
零值：对两种框架采用相同标准。
负值：模型对非汽车框架采用更宽松的标准。

引用

使用该数据集时，请引用原始学术工作：

@article{walker2025motonormativity, title = {Why do cars get a free ride? The social-ecological roots of motonormativity}, author = {Walker, Ian and te Brömmelstroet, Marco}, journal = {Global Environmental Change}, volume = {91}, pages = {102980}, year = {2025}, doi = {10.1016/j.gloenvcha.2025.102980} }

搜集汇总

数据集介绍

构建方式

Motonormativity-Statement-Pairs数据集旨在量化语言模型与人类被试中的汽车文化偏好偏见。其构建基于Walker与te Brömmelstroet提出的motonormativity理论，通过创建253个语义匹配的陈述对，每对包含一个亲汽车版本（statement_a）与一个对应非机动车版本（statement_b），二者仅交通方式不同而情境一致。这些陈述对源自23个学术文献中的原始命题，并由Claude Opus模型为每个原始对生成10个措辞与上下文各异的变体，最终形成230个扩充样本，确保偏见维度与方向的一致性。

特点

该数据集的核心特点在于其精巧的对照设计，能够直接评估个体对汽车与非机动车情境的双重标准。每对陈述在保持核心行为相同的前提下，仅改变交通方式属性，从而精准捕捉motonormativity现象。数据集规模紧凑，包含253对样本，覆盖多种交通场景，并提供了从原始学术文献到AI生成变体的多层次结构。这种设计既保留了理论根基，又通过语言多样性增强了评估的鲁棒性，适用于检测隐性的社会文化偏见。

使用方法

使用该数据集时，可通过Hugging Face Datasets库加载，并利用filter函数分离原始陈述与变体。典型评估流程是将每对中的两个陈述单独随机呈现给模型或受试者，要求其对每个陈述进行同意度评分，随后计算每对评分差值的均值作为motonormativity得分。正得分表示亲车偏见，零表示中立，负得分则反映反车倾向。该数据集已集成至Inspect AI评估框架，可便捷地纳入自动化偏见测试流水线。

背景与挑战

背景概述

Motonormativity Statement Pairs 数据集由 Eduard Subert 等人于 2025 年创建，旨在量化语言模型与人类调查对象中的“机动交通常态性”（motonormativity）偏见。该概念由 Walker 与 te Brömmelstroet 在同年发表于《Global Environmental Change》的研究中首次提出，揭示了社会对汽车使用存在系统性双重标准。数据集包含 253 组陈述对，每组由描述同一情景的汽车版与非机动交通版组成，通过对比受访者对两者的认同程度来评估隐性偏见。该数据集为交通运输的社会认知研究提供了标准化测评工具，对理解交通政策中的认知偏差、推动可持续出行行为具有重要学术价值。

当前挑战

该数据集面临的挑战集中于两方面。在领域问题上，它致力于揭示并量化长期被忽视的“机动交通常态性”偏见——即社会对汽车造成的负面外部性（如污染、占用空间）给予宽松评判，而对自行车、步行等非机动方式采用严苛标准。在构建过程中，挑战在于确保 23 组原始陈述对严格基于同行评审研究，并通过大语言模型生成的 230 个变体在保留偏见方向一致性的前提下多样化措辞与语境，同时需设计随机化呈现与评分差异计算方案，避免被测者或模型的回答顺序效应影响测评效度。

常用场景

经典使用场景

在交通心理学与社会规范研究的交汇处，motonormativity-statement-pairs数据集提供了一种精妙的配对陈述框架，用于量化语言模型与人类受访者对汽车使用所抱持的非对称道德判断。研究者可通过向模型或受试者随机呈现pair中的单一条目，并比较其对汽车情境与非机动化出行情境（如骑行、步行或公共交通）的认同程度差异，从而精准测算出由社会文化深层结构塑造的‘汽车常规化’偏见。这一范式尤为适用于揭示那些隐于日常认知之下、通常不易通过直接自陈式问卷捕获的系统性认知偏差。

衍生相关工作

基于该配对陈述范式，学界已衍生出一系列评估人工智能社会偏见的基准工作。最具代表性的是Subert等人构建的motonormativity Inspect AI评测框架，该框架将配对陈述转化为标准化的进攻性测试协议，系统性评估大语言模型在交通情境中的决策公平性，揭示了多个主流模型对汽车负外部性（如拥堵、污染）显著宽容的倾向。此外，该数据集还被用于探索跨文化motonormativity差异比较，以及模型对性别、阶层等交叉身份在交通议题中的交互影响，为构建更具责任感的AI交通决策系统奠定了评测基础。

数据集最近研究