five

SPACER|自然语言处理数据集|语言错误修正数据集

收藏
arXiv2025-03-21 更新2025-03-25 收录
自然语言处理
语言错误修正
下载链接:
https://github.com/goldengua/SPACER-CMCL
下载链接
链接失效反馈
资源简介:
SPACER数据集是由加州大学欧文分校语言科学系创建的,包含1056个自然发生的单字替换错误及修正的语句,以及5808个理解者对这些初始语句的回应。数据集中的语句从Switchboard语料库中提取,并通过网络文本编辑实验收集理解者的修正。该数据集旨在为研究语言生成和理解中的错误监测和修正提供一个并行数据集,以探究不同修正策略之间的不对称性,并促进语言生成与理解领域中整合性方法的发展。
提供机构:
加州大学欧文分校语言科学系
创建时间:
2025-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
SPACER数据集的构建过程分为两个关键阶段。研究团队首先从Switchboard语料库中系统性地筛选出包含单词语义替换错误及修正的自然对话片段,通过严格的编程化标准识别出576个说话者已修正(SC)和480个未修正(SU)的语句样本。随后通过在线文本编辑实验,组织66名母语者对1056个初始语句进行标注,每个语句由4-6名理解者独立完成错误修正判断,最终形成包含5808条理解者反应的平行数据集。
特点
该数据集的核心价值在于首次实现了语言产出与理解错误修正的并行标注。其独特之处体现在三个方面:采用自然发生的语音错误作为研究素材,保留了真实交际中的认知处理特征;通过说话者自我修正与理解者外部修正的双重视角,揭示了两种修正策略的不对称性;所有语料均标注了词汇频率、预测概率、音位和语义距离等计算语言学特征,为建立量化分析模型提供了多维度的参数支持。
使用方法
研究者可通过两种路径利用该数据集:在理论层面,可对比分析说话者自我修正与理解者修正的决策模式差异,探究音位相似性对修正概率的相反影响规律;在建模层面,数据集提供的词汇属性矩阵支持构建混合效应逻辑回归模型,预测特定语境下的修正行为。使用时应特别注意说话者原始录音与理解者文本标注的模态差异,建议结合语音特征进行跨模态验证分析。
背景与挑战
背景概述
SPACER数据集由加州大学欧文分校语言科学系的Shiva Upadhye、Jiaxuan Li和Richard Futrell等研究人员于2025年创建,旨在研究自然语言交流中说话者与理解者的错误修正行为。该数据集基于Switchboard语料库中的单词语义替换错误,通过并行采集说话者的自我修正与理解者的离线文本编辑反馈,首次实现了对语言产生与理解系统错误修正策略的整合研究。其核心科学价值在于揭示了语言监控机制的双向互动特性,为心理语言学领域长期分离的语言产生与理解研究架设了实证桥梁,对构建统一的语言处理理论模型具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决自然语言处理中错误修正策略的非对称性难题——说话者更关注语义偏离度高的错误修正,而理解者倾向于修正音位相似或语境不符的错误;在构建技术层面,存在原始语料标注一致性控制、跨模态数据对齐(语音错误与文本修正的映射)以及网络实验环境下理解者反馈信噪比控制等工程挑战。特别值得注意的是,数据集仅涵盖单词替换类错误,对插入、删除等复杂错误类型的覆盖不足,这限制了其在全面语言错误修正研究中的应用广度。
常用场景
经典使用场景
SPACER数据集在语言认知科学领域中被广泛应用于研究自然语言交流中的错误监控与修正机制。该数据集通过捕捉说话者和理解者在单词语义替换错误中的修正行为,为分析语言产生与理解系统的交互提供了独特视角。其经典使用场景包括探究语音错误修正策略的不对称性,例如说话者倾向于修正语义和音位偏差较大的错误,而理解者则更关注音位相似但语境不匹配的错误。
衍生相关工作
该数据集已衍生出多个经典研究方向,包括基于理性推理框架的错误修正计算建模(Futrell et al., 2020)、音位-语义交互在监控机制中的作用分析(Gauvin & Hartsuiker, 2020)以及语境预期对修正策略的影响研究(Ryskin et al., 2018)。特别值得注意的是,研究者利用SPACER验证了生产与理解过程中音位距离效应的相反模式,这一发现推动了对话语协调理论的发展。
数据集最近研究
最新研究方向
SPACER数据集作为首个并行捕捉说话者与理解者错误修复行为的大规模语料库,在心理语言学和人机交互领域引发了广泛关注。其最新研究聚焦于语言监控机制的跨模态不对称性,揭示了说话者更倾向于修复语义和音位偏差较大的错误,而理解者则对音位相似但语境不匹配的错误更为敏感。这一发现为构建统一的语言产生与理解理论提供了实证基础,尤其在智能语音助手错误修正算法的优化中展现出应用潜力。近期研究进一步探索了基于Transformer的噪声信道模型在该数据集上的表现,试图通过计算建模量化语境预测性与语音相似性在错误修复中的权重分配。
相关研究论文
  • 1
    SPACER: A Parallel Dataset of Speech Production And Comprehension of Error Repairs加州大学欧文分校语言科学系 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录