five

Lauler/rixvox-alignments

收藏
Hugging Face2024-07-01 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Lauler/rixvox-alignments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了瑞典议会(Riksdagen)中演讲的详细记录,涉及演讲的唯一标识符、协议标识符、演讲编号、日期、演讲者信息(包括姓名、ID、政党、选区、角色、性别、出生和死亡日期)、演讲的开始和结束时间、持续时间、原始协议文本、标准化文本、自动转录文本、模糊字符串匹配的估计时间、BLEU评分、复杂评分、演讲段落的数量、重复的起始时间以及音频文件名。这些数据可以用于分析演讲内容、演讲者的背景信息以及演讲的时间分布等。

This dataset contains detailed records of speeches in the Swedish Parliament (Riksdagen), including unique speech identifiers, protocol identifiers, speech numbers, dates, speaker information (including name, ID, party, district, role, gender, birth and death dates), start and end times of speeches, duration, original protocol text, normalized text, automatically transcribed text, estimated times from fuzzy string matching, BLEU scores, complex scores, number of speech segments, duplicate start times, and audio file names. These data can be used to analyze speech content, speaker background information, and the temporal distribution of speeches.
提供机构:
Lauler
原始信息汇总

数据集变量描述

变量列表

变量名 描述
speech_id SWERIK中演讲的id
protocol_id SWERIK中协议的id
speech_number 协议中的演讲编号。
dates 演讲所在协议的SWERIK日期。
name 演讲者姓名。
person_id SWERIK中演讲者/人物的id
speaker_id person_id相同。
riksdagen_id 演讲者在Riksdagen系统中的id(如果可用)。
party 演讲者在其职业生涯中的党派成员身份。
district 演讲者代表的选区(如果是MOP)。
role 演讲者在其职业生涯中担任的角色。
gender 性别。
start_segment 演讲在媒体文件中的开始时间(文件名可在audio_file变量中找到)。通过在模糊字符串匹配之上运行说话人识别来细化模糊字符串匹配中的现有时间戳(start_text_time中的值)。这通常是演讲开始时间的最佳估计。时间以秒为单位。
end_segment 演讲在媒体文件中的结束时间(根据说话人识别方法)。
duration_segment 演讲的持续时间(说话人识别方法)。
text SWERIK中的原始协议演讲文本。
text_normalized 适合与wav2vec2语音转文本输出进行字符串匹配的规范化版本(即小写、仅包含字母数字、将数字转换为拼写出的字母、无标点符号)。
transcription_w2v start_segmentend_segment之间的自动转录文本。
start_text_time 使用模糊字符串匹配估计的演讲开始时间(通常比start_segment不准确)。
end_text_time 使用模糊字符串匹配估计的演讲结束时间。
born 演讲者的出生日期。
dead 演讲者的死亡日期。
bleu_score text_normalizedtranscription_w2v之间的BLEU分数,作为重叠的指示。
overall_score 模糊字符串匹配的复杂分数,需要在论文中解释。
nr_speech_segments 在演讲持续时间内通过说话人识别识别出的不同演讲者数量(通常但不总是假阴性)。
start_segment_same 此演讲的start_segment是否与其他演讲的估计start_segment相同?大约有150个演讲具有相同的识别开始时间。通常两者中有一个是正确的,或者说话人识别失败导致演讲持续时间过宽,覆盖了两个演讲的部分内容。
audio_file Riksdagen媒体档案中的媒体文件名。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作