speech dataset

github2021-12-11 更新2024-05-31 收录

下载链接：

https://github.com/CollectivaT-dev/cortsvalencianes-scrape

下载链接

链接失效反馈

官方服务：

资源简介：

从cortsvalencianes网站抓取数据并生成的语音数据集

A speech dataset generated by scraping data from the cortsvalencianes website.

创建时间：

2021-06-17

原始信息汇总

Corts Valencianes Scrape 数据集概述

数据集生成流程

数据集生成流程包括以下步骤：

scrape_corts.py: 从搜索页面抓取会议列表，并将结果保存到items.json文件中。
download.py: 使用items.json中的信息选择全体会议，并从流媒体源下载相关视频。
generate_diaris.py: 从items.json中的全体会议列表生成转录链接，并将结果保存到items_diaris.json文件中。

安装与启动

安装和启动数据集生成流程的步骤如下：

创建并激活虚拟环境：

virtualenv --python=python venv source venv/bin/activate
依次运行以下脚本：

python scrape_corts.py python download.py python generate_diaris.py

待办任务

[ ] 修复download.py以支持连续下载
[x] 修复generate_diaris.py
[x] 匹配转录与视频
[x] 抓取每个会议中每次干预的发言人和时间戳
[ ] 编写以发言人和干预格式解析转录的脚本
[ ] 结构化输出以符合long-audio-alignment格式
[ ] 将数据持久化到数据库中

搜集汇总

数据集介绍

构建方式

该数据集的构建过程采用了分步骤的自动化脚本执行策略，确保了数据采集的高效性与准确性。初始阶段，通过`scrape_corts.py`脚本从指定网页抓取会议列表，并将结果存储在`items.json`文件中。随后，`download.py`脚本利用该文件信息筛选全体会议并下载相关视频。最后，`generate_diaris.py`脚本生成会议的文字记录链接，并保存至`items_diaris.json`文件中。

特点

该数据集的特点在于其全面的会议记录覆盖，包括视频与文字记录的双重数据形式，为研究者提供了丰富的分析维度。此外，数据集还特别关注了会议中的发言者及其发言时间戳，这一细节的捕捉对于语音识别和时间序列分析尤为重要。数据集的结构化输出设计，旨在支持长音频对齐等高级应用，展现了其在技术实现上的前瞻性。

使用方法

使用该数据集时，首先需通过虚拟环境安装所有必要的依赖项。随后，按照`scrape_corts.py`、`download.py`、`generate_diaris.py`的顺序依次执行脚本，以完成数据的抓取、下载和记录生成。这一流程确保了数据处理的连贯性和完整性，为后续的语音分析、文本挖掘等研究任务奠定了坚实的基础。

背景与挑战

背景概述

Corts Valencianes Scrape数据集是一个专注于从cortsvalencianes.es网站抓取并生成语音数据集的工具集。该数据集的主要目的是通过自动化脚本从瓦伦西亚议会的公开会议中提取语音数据，包括会议视频和相应的文字记录。这一数据集由多个脚本组成，分别负责抓取会议列表、下载相关视频以及生成文字记录链接。该数据集的创建旨在为语音识别、自然语言处理等领域的研究提供高质量的语音和文本数据，特别是在多语言和特定领域语音识别方面具有重要价值。

当前挑战

Corts Valencianes Scrape数据集在构建过程中面临多重挑战。首先，从网站抓取数据时，需要处理复杂的网页结构和动态内容，确保数据的完整性和准确性。其次，视频下载和文字记录的生成需要高效的网络请求和数据处理能力，以避免数据丢失或损坏。此外，数据集的构建还需要解决视频与文字记录之间的同步问题，确保语音和文本的精确匹配。最后，数据集的存储和结构化输出也是一个重要挑战，特别是在将数据转换为适合语音识别任务的格式时，需要确保数据的可用性和一致性。这些挑战不仅涉及技术层面的问题，还需要在数据处理流程中保持高度的自动化和可扩展性。

常用场景

经典使用场景

该数据集主要用于语音识别和自然语言处理领域的研究，特别是在多语言环境下，通过从Corts Valencianes网站抓取的会议视频和转录文本，研究者可以构建一个包含多种语言和方言的语音数据集。这一数据集特别适用于开发跨语言的语音识别模型，以及研究不同语言之间的语音特征差异。

解决学术问题

该数据集解决了在多语言环境下语音识别模型训练数据不足的问题。通过提供详细的会议转录文本和对应的语音数据，研究者可以更准确地训练和测试语音识别算法，特别是在处理多语言混合的语音数据时。此外，该数据集还为研究语音与文本对齐、说话人识别等任务提供了宝贵资源。

衍生相关工作

基于该数据集，已有研究开发了多种语音识别和自然语言处理工具。例如，一些研究利用该数据集训练了多语言语音识别模型，并在国际会议上展示了其效果。此外，该数据集还被用于开发自动化的会议记录系统，这些系统能够实时转录会议内容，并生成结构化的会议记录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集