five

riigikogu-audio-stenograms-2018-2025

收藏
Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/TalTechNLP/riigikogu-audio-stenograms-2018-2025
下载链接
链接失效反馈
官方服务:
资源简介:
Riigikogu Stenograms 2018-2025数据集包含爱沙尼亚议会(Riigikogu)2017年底至2025年5月期间的会议速记稿(近似转录文本)及对应音频。这些转录文本并非逐字记录,而是经过编辑以提高可读性和语法正确性,并提供句子级别的起止时间标记(相对于对应音频文件)。数据集以Transcriber XML(.trs)格式呈现,包含发言者姓名和议题名称(如"Tulumaksuseaduse muutmise seaduse eelnõu esimene lugemine")。数据源自Riigikogu开放API和YouTube,通过基于多语言Wav2Vec2 CTC语音模型的强制对齐流程处理,确保99%以上的句子时间戳精确到秒级。该数据集共包含1001个会议录音,总时长约3084小时。
提供机构:
Laboratory of Language Technology at Tallinn University of Technology
创建时间:
2026-03-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作