riigikogu-audio-stenograms-2018-2025
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/TalTechNLP/riigikogu-audio-stenograms-2018-2025
下载链接
链接失效反馈官方服务:
资源简介:
Riigikogu Stenograms 2018-2025数据集包含爱沙尼亚议会(Riigikogu)2017年底至2025年5月期间的会议速记稿(近似转录文本)及对应音频。这些转录文本并非逐字记录,而是经过编辑以提高可读性和语法正确性,并提供句子级别的起止时间标记(相对于对应音频文件)。数据集以Transcriber XML(.trs)格式呈现,包含发言者姓名和议题名称(如"Tulumaksuseaduse muutmise seaduse eelnõu esimene lugemine")。数据源自Riigikogu开放API和YouTube,通过基于多语言Wav2Vec2 CTC语音模型的强制对齐流程处理,确保99%以上的句子时间戳精确到秒级。该数据集共包含1001个会议录音,总时长约3084小时。
提供机构:
Laboratory of Language Technology at Tallinn University of Technology
创建时间:
2026-03-24



