preseea

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/marianbasti/preseea

下载链接

链接失效反馈

官方服务：

资源简介：

PRESEEA是一个包含来自西班牙和美洲地区采访的音频记录和正字法标注的转录文本的语料库，用于社会语言学研究。它由西班牙和美洲地区的研究团队协作制作，并按照标准化的社会语言学协议进行采访。这个语料库适合用于自动语音识别、西班牙语教学和社会语言学研究等领域。

创建时间：

2025-07-19

原始信息汇总

PRESEEA数据集概述

基本信息

语言：西班牙语（es）
许可证：CC BY-NC-ND 4.0
标签：audio, speech, transcription, sociolinguistics, argentina, chile, mexico, peru, uruguay, bolivia, colombia, venezuela, ecuador, cuba, guatemala, spain, corpus, linguistics, preseea
数据集名称：PRESEEA - Proyecto para el Estudio Sociolingüístico del Español de España y de América

数据集描述

PRESEEA是一个包含西班牙和美洲多个城市半定向访谈录音的集合。数据集包含音频录音和丰富的正字转录，部分带有语言学注释。

数据特征

文件名称（file_name）：字符串类型
文本（text）：字符串类型

任务类别

自动语音识别（automatic-speech-recognition）

数据来源与维护

来源：PRESEEA项目（https://preseea.uah.es/corpus-preseea）
维护：PRESEEA项目与多所大学研究团队合作维护

数据格式与注释

音频格式：WAV和MP3
转录格式：
- 文本文件（.TXT），编码为ISO-8859-1（Latin-1）
- 包含元数据头部和正字转录正文
- 提供带XML标签和不带标签的版本

数据集规模

644个访谈，每个访谈时长20至45分钟

应用场景

自动语音识别
社会语言学研究
口语分析
西班牙语教学

引用方式

PRESEEA (2014-): Corpus del Proyecto para el estudio sociolingüístico del español de España y de América. Alcalá de Henares: Universidad de Alcalá. http://preseea.uah.es.

搜集汇总

数据集介绍

构建方式

PRESEEA数据集作为西班牙及美洲西班牙语社会语言学研究的珍贵资源，其构建过程体现了严谨的学术规范。研究团队采用半结构化访谈方式，在西班牙及美洲多个城市采集了644段时长20至45分钟的语音样本。所有录音均遵循标准化的社会语言学协议，并辅以详细的元数据标注。语音材料经过专业转写处理，生成包含XML标记的文本版本和纯文本版本，其中XML版本对停顿、重叠等副语言现象进行了系统标注，转写文本采用ISO-8859-1编码格式存储。

特点

该数据集最显著的特征在于其多维度的社会语言学标注体系。除了基础的语音转写文本外，数据集还包含说话人的社会人口学特征、地域信息等元数据。语音文件采用WAV和MP3双格式存储，命名遵循严格的标准化规则。转写文本特别保留了自然口语中的非标准发音现象，为研究西班牙语方言变异提供了真实语料。数据集覆盖16个西班牙语国家的语言变体，时间跨度达七年，具有显著的地域代表性和历时研究价值。

使用方法

研究者可通过HuggingFace平台获取该数据集的标准化版本，包含音频文件及其对应转写文本。对于自动语音识别任务，建议优先使用去除XML标记的纯净文本版本；而社会语言学分析则可利用包含副语言标记的增强版本。数据集采用CC BY-NC-ND 4.0许可协议，要求使用者保留原始署名并禁止商业性使用。为保障研究可复现性，官方推荐引用2014年以来的版本信息，并注明具体访问日期。

背景与挑战

背景概述

PRESEEA（Proyecto para el Estudio Sociolingüístico del Español de España y de América）是由西班牙阿尔卡拉大学主导的一项大规模社会语言学项目，旨在研究西班牙及拉丁美洲地区的西班牙语变体。该项目始于2014年，汇集了来自西班牙、阿根廷、智利、墨西哥等16个国家和地区的多所高校研究团队。通过标准化采集的644份半结构化访谈录音（每份20-45分钟）及其转写文本，该语料库为探究西班牙语的社会语言学特征、方言变异及口语现象提供了珍贵资源。2021年更新的方法论指南进一步提升了数据采集和标注的规范性，使其成为跨方言语音识别和社会语言学研究的基准数据集。

当前挑战

PRESEEA语料库面临的核心挑战体现在研究与应用两个维度。在学术层面，如何准确捕捉16个地区西班牙语在音系、词汇和句法层面的细微差异，是方言学研究的难点；而语音识别领域则需解决方言多样性导致的模型泛化问题。在数据构建层面，多中心协作产生的录音质量差异、转写文本中非标准拼写现象的标注一致性，以及XML标记系统对口语特征（如停顿、重叠）的规范化处理，均为技术实现上的关键挑战。此外，严格的CC BY-NC-ND 4.0许可协议虽保护了受访者隐私，但也限制了数据在商业场景下的应用潜力。

常用场景

经典使用场景

在西班牙语语言学研究中，PRESEEA数据集作为跨地区口语语料库的典范，常被用于分析西班牙及拉丁美洲各地区的方言变异现象。其标准化的半结构化访谈录音和转写文本，为研究者提供了观察自然口语中音系、词汇和句法特征的珍贵窗口，尤其适合进行社会语言学层面的共时比较研究。

实际应用

除学术研究外，该语料库在语音识别系统的西班牙语方言适配训练中展现出重要价值。其包含的多种地域发音特征可提升ASR模型在拉美市场的识别准确率。教育领域则利用其真实对话素材开发面向二语学习者的方言感知教学资源。

衍生相关工作

基于PRESEEA的经典研究包括《西班牙语元音系统的社会地理变异》（Hernández-Campoy, 2018）等社会语言学著作。在计算语言学领域，该数据集启发了如HispanicUSC等跨方言语音识别基准的构建，推动了西班牙语NLP技术的区域适应性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集