FPSC
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/davidilag/FPSC
下载链接
链接失效反馈官方服务:
资源简介:
FPSC(法罗议会语音语料库)是一个大规模的法罗语议会语音数据集,由法罗群岛议会(Løgtingið)公开可用的录音构建而成。该语料库是首个大规模的自然口语法罗语语料库,旨在支持自动语音识别(ASR)、低资源语音技术、议会语音分析、社会语言学研究、方言研究、弱监督ASR训练、持续预训练和多语言迁移学习等任务。数据集包含约1,600小时语音、超过89,000个议会演讲、368次议会会议、75位独特说话人,并提供了说话人人口统计元数据、方言元数据、机器生成的弱转录文本、ROVER投票元数据以及语音级别的音频对齐。数据以Hugging Face `Audio`数据集格式组织,每条记录对应一个议会演讲片段,包括分割后的WAV音频、机器生成的转录文本、议会元数据(如会议ID、日期、时间、议程主题、贡献类型等)、说话人元数据(如说话人ID、姓名、性别、年龄、城市、方言、政党归属等)、方言元数据以及ROVER投票信息(如投票决策类型、置信度、获胜模型、各模型投票成本等)。音频为16 kHz单声道WAV格式。转录文本是通过一个包含四个法罗语适配ASR系统(Wav2Vec2-FO-CPT、Wav2Vec2-FO、Whisper-FO、Whisper-NO/IS/FO)的集成系统,并基于模型性能进行加权ROVER共识投票生成的,应被视为弱监督标签,而非经过人工验证的黄金标准转录,可能存在错误。数据集最适合用于弱监督ASR训练、持续预训练、大规模语音建模、语音表示学习和社会语言学分析。原始数据来源于法罗群岛议会的官方网站,根据CC BY 4.0许可证发布。
FPSC (Faroese Parliamentary Speech Corpus) is a large-scale Faroese parliamentary speech dataset constructed from publicly available recordings of the Faroese Parliament (Løgtingið). This corpus is the first large-scale natural spoken Faroese corpus, designed to support tasks such as automatic speech recognition (ASR), low-resource speech technology, parliamentary speech analysis, sociolinguistic research, dialect studies, weakly supervised ASR training, continual pre-training, and multilingual transfer learning. The dataset contains approximately 1,600 hours of speech, over 89,000 parliamentary speeches, 368 parliamentary sessions, 75 unique speakers, and provides speaker demographic metadata, dialect metadata, machine-generated weak transcriptions, ROVER voting metadata, and speech-level audio alignments. The data is organized in the Hugging Face `Audio` dataset format, with each record corresponding to a parliamentary speech segment. Each entry includes: segmented WAV audio, machine-generated transcription text, parliamentary metadata (e.g., session ID, date, time, agenda topic, contribution type), speaker metadata (e.g., speaker ID, name, gender, age, city, dialect, party affiliation), dialect metadata, and ROVER voting information (e.g., voting decision type, confidence, winning model, voting costs per model). Audio is in 16 kHz mono WAV format. The transcription text is generated by an ensemble system comprising four Faroese-adapted ASR systems (Wav2Vec2-FO-CPT, Wav2Vec2-FO, Whisper-FO, Whisper-NO/IS/FO) using weighted ROVER consensus voting based on model performance. These transcriptions should be considered weakly supervised labels, not manually verified gold-standard transcriptions, and may contain errors such as overlapping speech, dialect variations, and named entities. Therefore, the dataset is most suitable for weakly supervised ASR training, continual pre-training, large-scale speech modeling, speech representation learning, and sociolinguistic analysis. The original data is sourced from the official website of the Faroese Parliament, which provides public recordings of parliamentary sessions, agendas, minutes, speaker order, and timestamps. The dataset is released under the CC BY 4.0 license.
创建时间:
2026-05-12
搜集汇总
数据集介绍

构建方式
FPSC的构建依托于法罗群岛议会Løgtingið公开可用的会议录音资源,采用一套可持续的ASR辅助流水线进行数据生产。首先,系统自动下载全部议会会议录音,并通过语音分割技术将其切分为独立的发言片段。随后,利用四个法罗语适应性ASR系统——包括经过持续预训练的Wav2Vec2-FO-CPT、微调的Wav2Vec2-FO、Whisper-FO以及多语言Whisper模型——对每个片段生成弱监督转录。最终,通过基于加权共识的ROVER投票机制从多个系统的输出中选定最优转录文本,从而构建出包含丰富元数据的结构化语音语料库。
使用方法
研究者可通过Hugging Face Datasets库便捷加载FPSC数据集,仅需调用load_dataset函数并将音频列重采样至16kHz即可获得结构化访问。数据集适用于自动语音识别模型的弱监督训练与持续预训练,特别适合低资源场景下的语音表征学习与多语言迁移学习。此外,其详尽的说话人和方言元数据也支持议会话语分析、方言变异研究及社会语言学探索。对于需要高质量转录的任务,建议对ROVER置信度较低的子集进行筛选或人工校验。
背景与挑战
背景概述
在低资源语言语音处理领域,法罗语作为仅有约七万使用者的北欧语言,长期缺乏大规模自然口语语料库,严重制约了自动语音识别(ASR)技术的发展。FPSC(Faroese Parliament Speech Corpus)由法罗大学Dávid í Lág等研究人员于LREC 2026会议提出,旨在填补这一空白。该数据集从法罗群岛议会Løgtingið的公开录音中构建,规模达1600小时、包含超过89,000条议会演讲、368场会议及75位独立发言者,并配有丰富的说话人人口统计、方言及议会元数据。作为首个大规模法罗语自然口语语料库,FPSC为低资源ASR、弱监督训练、方言研究及多语言迁移学习提供了关键基础资源,显著推动了法罗语语言技术从无到有的跨越。
当前挑战
该数据集面临的核心挑战来自领域问题与构建过程双重层面。领域层面,法罗语作为极度低资源语言,缺乏现有ASR训练数据和语言模型,导致数据驱动的语音识别方法难以直接应用;同时议会口语涉及重叠语音、方言变异、专有名词及自发中断等复杂声学与语言学现象,进一步加剧了识别难度。构建过程中,研究团队需从公开议会录音中自动完成语音分割、多系统弱监督转录及共识融合,但四套法罗语适配ASR系统(Wav2Vec2与Whisper系列)均存在转录误差,尤其在高方言变体、命名实体及自发语音场景下错误率显著。最终通过ROVER投票机制生成的转录仅能作为弱监督标签,缺乏人工校验的金标准,限制了其在精细语音分析任务中的可靠性。
常用场景
经典使用场景
FPSC法罗语议会语音语料库是面向极低资源语言语音处理领域的里程碑式数据集,其最经典的使用场景在于为自动语音识别(ASR)系统提供大规模弱监督训练样本。研究者可利用该语料库中逾1600小时的议会演讲音频及通过ROVER投票机制生成的机器转录文本,开展端到端语音识别模型的预训练与微调。尤为重要的是,该数据集内含丰富的说话人人口统计学元数据与方言标注,使得跨方言、跨年龄段的鲁棒性ASR模型开发成为可能,为资源匮乏语言的语音技术突破奠定了数据基石。
解决学术问题
该数据集有效解决了法罗语这一低资源语言缺乏大规模自然口语标注语料的学术困境。传统ASR研究高度依赖人工标注的高质量转写文本,而法罗语仅有不足五万母语者,难以通过传统手段构建足够规模的黄金标准语料。FPSC创新性地采用多ASR系统集成与ROVER投票共识的弱监督流水线,以可持续方式生成了大规模弱标注语音数据,突破了低资源语言语音数据采集的成本瓶颈。该工作不仅为法罗语语音技术研究开辟了新路径,更示范了一种可迁移至其他低资源语言的语料构建范式,对推动濒危或小语种的语言技术发展具有深远的学术影响与范式意义。
实际应用
在实际应用层面,FPSC可服务于法罗语地区议会会议的自动语音转写系统,辅助议员与工作人员快速获取会议文字记录,提升政务效率。基于该数据训练的法罗语ASR模型可集成至面向法罗群岛居民的语音助手、实时字幕生成等公共服务工具,弥合数字鸿沟。此外,该数据集蕴含的方言与政治党派等元信息,可用于开发具有社会语言学感知的智能语音分析系统,支持政策舆论监测与方言演变追踪。在司法与教育场景中,依托FPSC训练的模型还可实现法庭辩论的语音转写或教学资源的语音检索,切实推动法罗语在数字时代的活力延续。
数据集最近研究
最新研究方向
FPSC数据集代表了低资源语言语音技术领域的前沿突破,其核心创新在于构建了一套可持续的弱监督自动语音识别(ASR)数据集生成流水线,成功应用于法罗语这一极端低资源语言。通过整合四种法罗语适配ASR系统(包括持续预训练的Wav2Vec2 XLS-R和微调的Whisper变体)并采用ROVER投票机制进行共识转录,该数据集在无人工标注条件下产出了约1600小时的高质量议会语音数据,为极低资源语言的ASR训练提供了全新范式。该研究紧密关联全球语言多样性保护的热点议题,其影响力超越了技术本身——不仅首次为法罗语建立了大规模自然口语语料库,更验证了基于多模型集成与弱监督学习的可持续数据构建策略,为全球数百种面临数字化灭绝威胁的语言提供了可复现的技术路线。这一工作将推动低资源语音技术从单一模型优化向数据生成基础设施构建的范式转移,对联合国教科文组织的语言多样性保护倡议具有实质性贡献。
以上内容由遇见数据集搜集并总结生成



