Lauler/rixvox-alignments
收藏Hugging Face2024-07-01 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Lauler/rixvox-alignments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了瑞典议会(Riksdagen)中演讲的详细记录,涉及演讲的唯一标识符、协议标识符、演讲编号、日期、演讲者信息(包括姓名、ID、政党、选区、角色、性别、出生和死亡日期)、演讲的开始和结束时间、持续时间、原始协议文本、标准化文本、自动转录文本、模糊字符串匹配的估计时间、BLEU评分、复杂评分、演讲段落的数量、重复的起始时间以及音频文件名。这些数据可以用于分析演讲内容、演讲者的背景信息以及演讲的时间分布等。
This dataset contains detailed records of speeches in the Swedish Parliament (Riksdagen), including unique speech identifiers, protocol identifiers, speech numbers, dates, speaker information (including name, ID, party, district, role, gender, birth and death dates), start and end times of speeches, duration, original protocol text, normalized text, automatically transcribed text, estimated times from fuzzy string matching, BLEU scores, complex scores, number of speech segments, duplicate start times, and audio file names. These data can be used to analyze speech content, speaker background information, and the temporal distribution of speeches.
提供机构:
Lauler
原始信息汇总
数据集变量描述
变量列表
| 变量名 | 描述 |
|---|---|
| speech_id | SWERIK中演讲的id。 |
| protocol_id | SWERIK中协议的id。 |
| speech_number | 协议中的演讲编号。 |
| dates | 演讲所在协议的SWERIK日期。 |
| name | 演讲者姓名。 |
| person_id | SWERIK中演讲者/人物的id。 |
| speaker_id | 与person_id相同。 |
| riksdagen_id | 演讲者在Riksdagen系统中的id(如果可用)。 |
| party | 演讲者在其职业生涯中的党派成员身份。 |
| district | 演讲者代表的选区(如果是MOP)。 |
| role | 演讲者在其职业生涯中担任的角色。 |
| gender | 性别。 |
| start_segment | 演讲在媒体文件中的开始时间(文件名可在audio_file变量中找到)。通过在模糊字符串匹配之上运行说话人识别来细化模糊字符串匹配中的现有时间戳(start_text_time中的值)。这通常是演讲开始时间的最佳估计。时间以秒为单位。 |
| end_segment | 演讲在媒体文件中的结束时间(根据说话人识别方法)。 |
| duration_segment | 演讲的持续时间(说话人识别方法)。 |
| text | SWERIK中的原始协议演讲文本。 |
| text_normalized | 适合与wav2vec2语音转文本输出进行字符串匹配的规范化版本(即小写、仅包含字母数字、将数字转换为拼写出的字母、无标点符号)。 |
| transcription_w2v | 在start_segment和end_segment之间的自动转录文本。 |
| start_text_time | 使用模糊字符串匹配估计的演讲开始时间(通常比start_segment不准确)。 |
| end_text_time | 使用模糊字符串匹配估计的演讲结束时间。 |
| born | 演讲者的出生日期。 |
| dead | 演讲者的死亡日期。 |
| bleu_score | text_normalized和transcription_w2v之间的BLEU分数,作为重叠的指示。 |
| overall_score | 模糊字符串匹配的复杂分数,需要在论文中解释。 |
| nr_speech_segments | 在演讲持续时间内通过说话人识别识别出的不同演讲者数量(通常但不总是假阴性)。 |
| start_segment_same | 此演讲的start_segment是否与其他演讲的估计start_segment相同?大约有150个演讲具有相同的识别开始时间。通常两者中有一个是正确的,或者说话人识别失败导致演讲持续时间过宽,覆盖了两个演讲的部分内容。 |
| audio_file | Riksdagen媒体档案中的媒体文件名。 |



