SPACER
收藏arXiv2025-03-21 更新2025-03-25 收录
下载链接:
https://github.com/goldengua/SPACER-CMCL
下载链接
链接失效反馈官方服务:
资源简介:
SPACER数据集是由加州大学欧文分校语言科学系创建的,包含1056个自然发生的单字替换错误及修正的语句,以及5808个理解者对这些初始语句的回应。数据集中的语句从Switchboard语料库中提取,并通过网络文本编辑实验收集理解者的修正。该数据集旨在为研究语言生成和理解中的错误监测和修正提供一个并行数据集,以探究不同修正策略之间的不对称性,并促进语言生成与理解领域中整合性方法的发展。
The SPACER dataset was created by the Department of Linguistics, University of California, Irvine. It contains 1056 naturally occurring single-word substitution errors and their corrected utterances, as well as 5808 responses from comprehenders regarding these initial utterances. The utterances in the dataset are extracted from the Switchboard Corpus, and the comprehenders' corrections were collected via web-based text editing experiments. This dataset aims to provide a parallel dataset for research on error monitoring and correction in language production and comprehension, to explore the asymmetry among different correction strategies, and to promote the development of integrative approaches in the fields of language production and comprehension.
提供机构:
加州大学欧文分校语言科学系
创建时间:
2025-03-21
搜集汇总
数据集介绍

构建方式
SPACER数据集的构建过程分为两个关键阶段。研究团队首先从Switchboard语料库中系统性地筛选出包含单词语义替换错误及修正的自然对话片段,通过严格的编程化标准识别出576个说话者已修正(SC)和480个未修正(SU)的语句样本。随后通过在线文本编辑实验,组织66名母语者对1056个初始语句进行标注,每个语句由4-6名理解者独立完成错误修正判断,最终形成包含5808条理解者反应的平行数据集。
特点
该数据集的核心价值在于首次实现了语言产出与理解错误修正的并行标注。其独特之处体现在三个方面:采用自然发生的语音错误作为研究素材,保留了真实交际中的认知处理特征;通过说话者自我修正与理解者外部修正的双重视角,揭示了两种修正策略的不对称性;所有语料均标注了词汇频率、预测概率、音位和语义距离等计算语言学特征,为建立量化分析模型提供了多维度的参数支持。
使用方法
研究者可通过两种路径利用该数据集:在理论层面,可对比分析说话者自我修正与理解者修正的决策模式差异,探究音位相似性对修正概率的相反影响规律;在建模层面,数据集提供的词汇属性矩阵支持构建混合效应逻辑回归模型,预测特定语境下的修正行为。使用时应特别注意说话者原始录音与理解者文本标注的模态差异,建议结合语音特征进行跨模态验证分析。
背景与挑战
背景概述
SPACER数据集由加州大学欧文分校语言科学系的Shiva Upadhye、Jiaxuan Li和Richard Futrell等研究人员于2025年创建,旨在研究自然语言交流中说话者与理解者的错误修正行为。该数据集基于Switchboard语料库中的单词语义替换错误,通过并行采集说话者的自我修正与理解者的离线文本编辑反馈,首次实现了对语言产生与理解系统错误修正策略的整合研究。其核心科学价值在于揭示了语言监控机制的双向互动特性,为心理语言学领域长期分离的语言产生与理解研究架设了实证桥梁,对构建统一的语言处理理论模型具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决自然语言处理中错误修正策略的非对称性难题——说话者更关注语义偏离度高的错误修正,而理解者倾向于修正音位相似或语境不符的错误;在构建技术层面,存在原始语料标注一致性控制、跨模态数据对齐(语音错误与文本修正的映射)以及网络实验环境下理解者反馈信噪比控制等工程挑战。特别值得注意的是,数据集仅涵盖单词替换类错误,对插入、删除等复杂错误类型的覆盖不足,这限制了其在全面语言错误修正研究中的应用广度。
常用场景
经典使用场景
SPACER数据集在语言认知科学领域中被广泛应用于研究自然语言交流中的错误监控与修正机制。该数据集通过捕捉说话者和理解者在单词语义替换错误中的修正行为,为分析语言产生与理解系统的交互提供了独特视角。其经典使用场景包括探究语音错误修正策略的不对称性,例如说话者倾向于修正语义和音位偏差较大的错误,而理解者则更关注音位相似但语境不匹配的错误。
衍生相关工作
该数据集已衍生出多个经典研究方向,包括基于理性推理框架的错误修正计算建模(Futrell et al., 2020)、音位-语义交互在监控机制中的作用分析(Gauvin & Hartsuiker, 2020)以及语境预期对修正策略的影响研究(Ryskin et al., 2018)。特别值得注意的是,研究者利用SPACER验证了生产与理解过程中音位距离效应的相反模式,这一发现推动了对话语协调理论的发展。
数据集最近研究
最新研究方向
SPACER数据集作为首个并行捕捉说话者与理解者错误修复行为的大规模语料库,在心理语言学和人机交互领域引发了广泛关注。其最新研究聚焦于语言监控机制的跨模态不对称性,揭示了说话者更倾向于修复语义和音位偏差较大的错误,而理解者则对音位相似但语境不匹配的错误更为敏感。这一发现为构建统一的语言产生与理解理论提供了实证基础,尤其在智能语音助手错误修正算法的优化中展现出应用潜力。近期研究进一步探索了基于Transformer的噪声信道模型在该数据集上的表现,试图通过计算建模量化语境预测性与语音相似性在错误修复中的权重分配。
相关研究论文
- 1SPACER: A Parallel Dataset of Speech Production And Comprehension of Error Repairs加州大学欧文分校语言科学系 · 2025年
以上内容由遇见数据集搜集并总结生成



