Lauler/rixvox-alignments

Name: Lauler/rixvox-alignments
Creator: Lauler
Published: 2024-07-01 14:19:30
License: 暂无描述

Hugging Face2024-07-01 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Lauler/rixvox-alignments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了瑞典议会（Riksdagen）中演讲的详细记录，涉及演讲的唯一标识符、协议标识符、演讲编号、日期、演讲者信息（包括姓名、ID、政党、选区、角色、性别、出生和死亡日期）、演讲的开始和结束时间、持续时间、原始协议文本、标准化文本、自动转录文本、模糊字符串匹配的估计时间、BLEU评分、复杂评分、演讲段落的数量、重复的起始时间以及音频文件名。这些数据可以用于分析演讲内容、演讲者的背景信息以及演讲的时间分布等。

This dataset contains detailed records of speeches in the Swedish Parliament (Riksdagen), including unique speech identifiers, protocol identifiers, speech numbers, dates, speaker information (including name, ID, party, district, role, gender, birth and death dates), start and end times of speeches, duration, original protocol text, normalized text, automatically transcribed text, estimated times from fuzzy string matching, BLEU scores, complex scores, number of speech segments, duplicate start times, and audio file names. These data can be used to analyze speech content, speaker background information, and the temporal distribution of speeches.

提供机构：

Lauler

原始信息汇总

数据集变量描述

变量列表

变量名	描述
speech_id	SWERIK中演讲的`id`。
protocol_id	SWERIK中协议的`id`。
speech_number	协议中的演讲编号。
dates	演讲所在协议的SWERIK日期。
name	演讲者姓名。
person_id	SWERIK中演讲者/人物的`id`。
speaker_id	与`person_id`相同。
riksdagen_id	演讲者在Riksdagen系统中的`id`（如果可用）。
party	演讲者在其职业生涯中的党派成员身份。
district	演讲者代表的选区（如果是MOP）。
role	演讲者在其职业生涯中担任的角色。
gender	性别。
start_segment	演讲在媒体文件中的开始时间（文件名可在`audio_file`变量中找到）。通过在模糊字符串匹配之上运行说话人识别来细化模糊字符串匹配中的现有时间戳（`start_text_time`中的值）。这通常是演讲开始时间的最佳估计。时间以秒为单位。
end_segment	演讲在媒体文件中的结束时间（根据说话人识别方法）。
duration_segment	演讲的持续时间（说话人识别方法）。
text	SWERIK中的原始协议演讲文本。
text_normalized	适合与wav2vec2语音转文本输出进行字符串匹配的规范化版本（即小写、仅包含字母数字、将数字转换为拼写出的字母、无标点符号）。
transcription_w2v	在`start_segment`和`end_segment`之间的自动转录文本。
start_text_time	使用模糊字符串匹配估计的演讲开始时间（通常比`start_segment`不准确）。
end_text_time	使用模糊字符串匹配估计的演讲结束时间。
born	演讲者的出生日期。
dead	演讲者的死亡日期。
bleu_score	`text_normalized`和`transcription_w2v`之间的BLEU分数，作为重叠的指示。
overall_score	模糊字符串匹配的复杂分数，需要在论文中解释。
nr_speech_segments	在演讲持续时间内通过说话人识别识别出的不同演讲者数量（通常但不总是假阴性）。
start_segment_same	此演讲的`start_segment`是否与其他演讲的估计`start_segment`相同？大约有150个演讲具有相同的识别开始时间。通常两者中有一个是正确的，或者说话人识别失败导致演讲持续时间过宽，覆盖了两个演讲的部分内容。
audio_file	Riksdagen媒体档案中的媒体文件名。

5,000+

优质数据集

54 个

任务类型

进入经典数据集