Projeto SOTAQUE

github2026-04-25 更新2026-04-27 收录

下载链接：

https://github.com/fabriciocarraro/projeto-sotaque

下载链接

链接失效反馈

官方服务：

资源简介：

Projeto SOTAQUE 是一个开放的巴西葡萄牙语语音数据集，专注于收集多样化的地区口音。该项目旨在解决当前语音技术中缺乏多样化巴西口音数据的问题，通过众包方式收集志愿者的语音样本。数据集将公开发布在Hugging Face上，采用CDLA-Permissive-2.0许可协议，允许广泛使用，包括商业用途。

Projeto SOTAQUE is an open Brazilian Portuguese speech dataset dedicated to collecting diverse regional accents. This project aims to address the shortage of diverse Brazilian accent data in current speech technology, collecting speech samples from volunteers via crowdsourcing. The dataset will be publicly released on Hugging Face under the CDLA-Permissive-2.0 license, allowing widespread usage including commercial applications.

创建时间：

2026-04-23

原始信息汇总

项目概述

Projeto SOTAQUE 是一个专注于巴西葡萄牙语语音的开放数据集，旨在收集具有巴西各地口音多样性的语音数据，弥补当前语音技术中巴西口音缺失的问题。

核心目标

问题背景：现有 AI 语音模型多基于英语或欧洲葡萄牙语训练，巴西葡萄牙语数据稀缺且集中于东南部城市口音（如圣保罗、里约热内卢），导致其他地区口音用户在使用语音助手时被误解。
项目使命：通过开放、多样、有文档记录的数据集，为语音合成、自动转录、语音助手等技术的训练与评估提供巴西口音资源。

数据来源与参与方式

收集方式：基于众包模式，年满18岁的巴西人可通过网站自愿贡献语音。
参与途径：
- 网站：通过浏览器直接录制或上传已有音频（包括 WhatsApp 历史音频），同时提供口音、地区、教育背景等信息并同意使用。
- WhatsApp（即将推出）：通过专用机器人接收音频。

数据集规模与目标

初始目标：1,000 小时语音（足以开始训练和评估模型）。
最终目标：10,000 小时语音（成为巴西葡萄牙语语音社区的开放参考标准）。
处理流程：每个音频将经过自动转录（使用 ElevenLabs Scribe v2）和简单审核后纳入后续发布版本。

许可与开放策略

发布平台：Hugging Face。
许可证：CDLA-Permissive-2.0（允许广泛使用，包括商业用途）。
开放对象：公立大学、独立研究员、初创公司、学校及任何感兴趣的个人均可下载、使用和重新分发。

隐私与数据合规

公开数据：音频录音、转录文本及用户授权的元数据（口音、地区、年龄、性别、教育背景），关联公开化名。
不公开数据：电子邮件、IP 地址、用户代理及任何同意证据，这些信息存储在独立数据库中，仅保留法定必要期限。
撤销同意：用户可随时通过网站页面撤销同意，但已分发副本和已训练模型可能无法完全移除。
完整条款：详见项目网站的《同意条款与隐私声明》。

项目维护方

维护人：Fabrício Carraro，畅销书《Inteligência Artificial e ChatGPT》作者，播客 IA Sob Controle 创建者。
联系方式：contato@fabriciocarraro.com.br（用于隐私、权利行使或合作）。

搜集汇总

数据集介绍

构建方式

在人工智能语音技术日益普及的当下，巴西葡萄牙语语音数据集却长期被大型科技公司垄断，且缺乏对不同区域口音的覆盖。Projeto SOTAQUE应运而生，旨在构建一个开放、多样且文档完善的巴西葡萄牙语语音数据集。该数据集采用自愿式众包收集方式，年满18岁的巴西人可通过网站直接录音或上传已有音频（包括WhatsApp历史语音）的方式贡献自己的声音。录音过程中，贡献者需提供口音、地区、年龄段、性别及教育程度等元数据，并签署同意书，确保数据使用的合法性。收集到的音频首先经由ElevenLabs Scribe v2进行自动转录，再经过简单策展后纳入后续发布的数据集版本中。

特点

Projeto SOTAQUE最突出的特点在于其对巴西葡萄牙语区域口音多样性的明确追求，旨在纠正现有语音模型多集中于东南部城市口音（如圣保罗和里约口音）的失衡格局。数据集完全开源，以CDLA-Permissive-2.0许可协议发布至Hugging Face平台，允许包括商业用途在内的广泛使用与再分发，此举打破了大型科技公司对语音数据的垄断。此外，数据集在隐私保护方面设计周密，仅公开音频、转录文本及用户授权的元数据（关联至匿名昵称），而电子邮件、IP地址等敏感信息则被严格隔离，并支持用户随时撤销同意，兼顾了合规性与用户权益。

使用方法

使用者可通过Hugging Face平台直接下载已发布的Projeto SOTAQUE数据集，其宽松的CDLA-Permissive-2.0许可协议允许研究机构、初创企业、学校及个人自由地将数据用于训练语音合成器、有声书系统、语音助手及自动转录等各类技术。数据集中的每段音频均附带转录文本及详尽的元数据（如口音、地区、年龄段等），便于使用者根据特定需求进行筛选与标注。此外，用户还可通过官网实时查看项目进度，并参与贡献或行使隐私权利。当前项目以积累1,000小时语音为首要目标，终极目标则是达到10,000小时，使之成为巴西葡萄牙语语音社区的开源基准资源。

背景与挑战

背景概述

Projeto SOTAQUE是由巴西独立研究者Fabrício Carraro于2023年发起的一项开源语音数据集项目，旨在填补葡萄牙语巴西方言（PT-BR）语音数据在区域口音多样性上的严重缺失。当前主流语音技术（如合成器、自动语音识别）在巴西的使用中，由于训练数据主要依赖英语或葡萄牙欧洲口音，导致对巴西本土口音（如卡伊皮拉、巴伊亚、北部口音）的识别与合成效果不佳。SOTAQUE通过众包方式收集18岁以上巴西志愿者的语音样本，辅以口音、地区、年龄等元数据，构建一个开放、多样化的语音资源库。该数据集已在Hugging Face上以CDLA-Permissive-2.0许可发布，目标规模从1000小时起步，最终达到10000小时，旨在打破大型科技公司对语音数据的垄断，推动巴西语音技术的研究与创新。

当前挑战

该数据集面临的核心挑战在于解决语音技术中巴西口音多样性不足的领域问题——现有模型对非东南部城市口音（如内陆与北部口音）的理解和生成效果较差，导致语音辅助工具在巴西全国范围内普及受阻。在构建过程中，挑战包括：如何通过众包机制吸引足够覆盖全部巴西地理区域（尤其是偏远地区）的志愿者参与，以保证数据的区域代表性；如何自动且准确地转录众包音频（依赖第三方API如ElevenLabs Scribe v2），并处理低质量录音（如背景噪音、语速不均）；此外，在遵守巴西《通用数据保护法》（LGPD）的前提下，设计隐私合规的数据收集与存储流程（如分离音频与敏感元数据），以及应对参与者随时撤销同意后对已发布数据集版本和已训练模型的不可逆影响。

常用场景

经典使用场景

在语音技术领域，Projeto SOTAQUE最经典的使用场景是训练和评估面向巴西葡萄牙语的自动语音识别（ASR）与文本转语音（TTS）系统。由于现有模型多基于英语或欧洲葡萄牙语数据，对巴西各地方言与口音覆盖严重不足，SOTAQUE通过众包方式收集了涵盖来自不同区域、年龄、性别和教育背景的语音样本，为构建真正理解并流畅生成巴西多样化口音的语音模型提供了关键基础设施。研究者可利用该数据集微调预训练模型，使其适应特定的地域性发音模式，从而大幅提升语音系统在真实巴西场景中的理解准确率与合成自然度。

衍生相关工作

SOTAQUE数据集的发布已催生一系列衍生研究工作。在模型优化方面，研究者基于该数据集探索了无监督域自适应和口音归一化方法，旨在不依赖大量目标口音标签的情况下提升跨口音迁移能力。在评估基准方面，SOTAQUE被用作构建巴西葡萄牙语口音鲁棒性排行榜的测试集，推动不同ASR系统在同一标准下进行公平比较。此外，该数据集还激发了针对葡萄牙语的低资源语音合成研究，团队尝试利用少量带口音音频配合声学特征预训练，生成自然度与可懂度兼顾的多口音声音。这些工作共同推动了面向巴西葡萄牙语的语音技术从单一标准口音向多元化口音时代的转变。

数据集最近研究