five

Hellenic-greek-parliamentary-speech

收藏
Hugging Face2025-07-28 更新2025-07-29 收录
下载链接:
https://huggingface.co/datasets/Elormiden/Hellenic-greek-parliamentary-speech
下载链接
链接失效反馈
官方服务:
资源简介:
HParl是一个现代希腊语的120小时演讲语料库,原始数据来源于希腊议会的议会程序,由语言和语音处理研究所收集。这个版本已经过处理,并分割为机器学习研究,包含了转录文本。语料库包括以下字段:音频记录、音频数组表示和希腊语文本转录。数据集分为训练集、验证集和测试集,分别占总数据的大约80%、10%和10%。总共有92,133个带转录的音频样本,数据集大小约为13.6GB。
创建时间:
2025-07-25
原始信息汇总

HParl: Hellenic Parliamentary Speech Corpus 数据集概述

数据集描述

  • 数据集名称: HParl: Hellenic Parliamentary Speech Corpus
  • 语言: 现代希腊语 (1453-)
  • 原始来源: 希腊议会会议记录
  • 原始时间覆盖范围: 2018年12月10日至2022年2月15日
  • 采样率: 16,000 Hz
  • 许可证: CC BY-NC 4.0 (非商业用途)
  • 总示例数: 92,133个音频片段及转录文本

数据集结构

数据字段

  • audio: 议会会议的音频录音 (16kHz采样率)
  • audio_array: 音频数组的字符串表示
  • transcription: 音频的希腊语文本转录

数据拆分

  • 训练集: 73,706个样本 (~80%)
  • 验证集: 9,213个样本 (~10%)
  • 测试集: 9,214个样本 (~10%)

数据集统计

  • 总样本数: 92,133个音频样本及转录文本
  • 数据集大小: ~13.6 GB
  • 下载大小: 13,799,489,702字节
  • 原始时长: 120小时的语音

其他信息

  • 标签: speech, audio, greek, parliamentary, clarin, kaldi
  • 配置名称: default
搜集汇总
数据集介绍
main_image_url
构建方式
在希腊语语音处理研究领域,HParl数据集作为重要的议会语音语料库,其构建过程体现了严谨的学术规范。数据集源自希腊议会2018年12月至2022年2月的议事录音,由语言与语音处理研究所系统采集。原始120小时的语音素材经过专业处理,采用16kHz采样率进行数字化,并配以精准的希腊文转写文本。为适应机器学习研究需求,数据被科学划分为训练集、验证集和测试集,分别占比80%、10%和10%,形成包含92,133条语音样本的标准化语料库。
特点
该数据集最显著的特征在于其纯正的议会语音属性,真实记录了希腊政治讨论的语言特征。所有音频文件均保持16kHz的高质量采样率,确保语音信号的完整性。每条录音都配有精确的希腊文转写,形成音频-文本对齐的平行语料。数据集规模达13.6GB,包含73,706条训练样本和近万条验证测试样本,为希腊语语音识别模型开发提供了充足的训练素材。其非商业使用的CC BY-NC 4.0许可协议,也体现了学术资源的合理共享原则。
使用方法
研究人员可通过HuggingFace平台便捷获取该数据集,其标准化的数据结构支持即装即用。音频文件以字典形式存储,包含原始波形和采样率信息,配合对应的转写文本,可直接用于端到端语音识别系统训练。数据集已预置train、validation和test标准划分,用户可按需调用不同子集进行模型训练与评估。对于希腊语语音处理研究,该数据集特别适合用于构建自动语音识别(ASR)系统,或作为预训练语料提升跨领域语音模型的泛化能力。
背景与挑战
背景概述
Hellenic-greek-parliamentary-speech数据集是由希腊语言与语音处理研究所(Institute for Language and Speech Processing)基于希腊议会会议记录构建的现代希腊语语音语料库。该数据集收录了2018年12月至2022年2月期间的议会发言音频,总时长约120小时,包含92,133条带转录的语音样本。作为希腊语语音识别领域的重要资源,该数据集为研究政治话语分析、低资源语言语音技术等课题提供了宝贵素材。其16kHz的采样率和精确的文本对齐标注,使其成为训练现代语音处理模型的理想选择。
当前挑战
该数据集面临的核心挑战主要体现在领域适应性和数据复杂性两个方面。议会发言场景特有的专业术语、辩论式发言风格以及背景噪音,对语音识别系统的鲁棒性提出了严峻考验。在构建过程中,研究人员需要克服希腊语特有的形态学复杂性,包括丰富的屈折变化和复合词结构。同时,确保大规模语音数据与文本转录的精准对齐,以及处理议会场景中常见的重叠发言现象,都是构建过程中需要解决的技术难题。
常用场景
经典使用场景
在语音识别和自然语言处理领域,Hellenic-greek-parliamentary-speech数据集为研究者提供了丰富的希腊语议会演讲音频及其转录文本。该数据集广泛应用于训练和评估希腊语自动语音识别(ASR)系统,特别是在处理正式政治演讲的复杂语言结构和专业术语方面表现出色。其高质量的音频和精准的文本对齐,为语音到文本的转换研究奠定了坚实基础。
实际应用
在实际应用中,Hellenic-greek-parliamentary-speech数据集被用于开发希腊语语音助手、会议记录自动生成系统以及政治演讲分析工具。政府部门和研究机构利用这些技术提高议会记录的效率,同时为语言学家和政治学家提供了分析演讲风格和内容的宝贵资源。
衍生相关工作
基于该数据集,多项经典研究工作得以展开,包括希腊语语音识别的端到端模型训练、跨语言语音识别迁移学习,以及政治演讲的情感分析和主题建模。这些工作不仅提升了希腊语语音技术的水平,还为其他低资源语言的类似研究提供了可借鉴的方法和框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作