Radio-T Data

github2026-02-08 更新2026-02-06 收录

下载链接：

https://github.com/ufian/radio-t-data

下载链接

链接失效反馈

官方服务：

资源简介：

Radio-T播客的转录数据集，包含992个清理后的播客转录文本，每个文本都有发言者标记。

Transcription dataset for Radio-T podcasts, which includes 992 cleaned podcast transcripts, each annotated with speaker labels.

创建时间：

2026-01-25

原始信息汇总

Radio-T 数据集概述

数据集基本信息

数据集名称：Radio-T Data
主要用途：用于分析播客“Радио-Т”（Radio-T）的转录文本。
数据源：播客 Радио-Т 的转录稿。
数据规模：包含 992 个播客节目的转录文本。

数据集内容与结构

核心数据：位于 data_clean/ 目录下，包含 992 个已清理的播客节目转录文本。
- 文件路径格式：data_clean/{N}/{N}_cc.json
- 数据格式：JSON 文件，包含带有说话人标记的转录文本。
辅助工具与配置：
- cleaning/：数据清理系统。
  - clean.py：应用清理规则的脚本。
  - people.yaml：播客参与者参考目录。
  - configs/：包含清理规则的 YAML 配置文件。
- validation/：说话人验证结果。
  - 路径格式：validation/episodes/{批次号}/{节目编号}.yaml（例如 validation/episodes/0000-0099/0001.yaml）。
- scripts/：分析脚本。
  - run_claude.py：用于启动 Claude 分析播客节目的脚本。
  - preprocess_stats.py：用于预计算说话人统计数据的脚本。

数据处理与分析

分析工具：主要使用 scripts/run_claude.py 脚本，配合 Claude Code CLI 对播客节目进行分析。
分析功能：
- 可分析单个节目、指定范围或特定多个节目。
- 支持干运行（--dry-run）模式以预览提示词。
- 支持强制重新处理已完成的节目（--no-skip）。
输出结果：分析结果以 YAML 格式保存，包含节目状态、说话人摘要、未知说话人识别建议及规则建议等信息。
数据清理：使用 cleaning/clean.py 脚本将清理规则应用于原始数据，支持指定节目范围或干运行模式。

处理性能参考

平均单节目处理时间：约 54 秒。
处理 100 个节目预计时间：约 90 分钟。
处理全部 992 个节目预计时间：约 15 小时。
脚本在达到速率限制时会暂停，重新启动后可自动从断点继续。

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在播客内容分析领域，Radio-T数据集的构建体现了系统化的数据处理流程。该数据集源自俄语技术播客“Радио-Т”的转录文本，涵盖了992期节目内容。构建过程首先通过自动化脚本进行原始转录文本的采集与整理，随后采用基于YAML配置的规则引擎进行数据清洗，以统一格式并修正常见错误。关键环节在于说话人标注，利用Claude Code CLI工具对每期节目进行智能分析，识别不同发言者并标注其身份，分析结果以结构化YAML文件保存，包含说话人列表、未知发言者推断及规则建议，从而形成带有说话人标记的纯净转录文本。

特点

该数据集的核心特征在于其精细的结构化标注与完备的元数据体系。所有转录文本均以JSON格式存储，并明确标注了每位发言者的对话片段，为对话分析与说话人角色研究提供了坚实基础。数据集附带了完整的清洗与验证工具链，包括可配置的清洗规则和说话人验证结果，确保了数据的一致性与可追溯性。其规模覆盖近千期节目，时间跨度大，内容涉及广泛的技术话题，为自然语言处理任务提供了丰富的语境多样性。验证文件详细记录了每期节目的处理状态、说话人出场信息及识别置信度，为数据质量评估和后续分析提供了透明依据。

使用方法

研究人员可通过克隆项目仓库并配置Python环境来使用该数据集。核心使用路径包括运行`run_claude.py`脚本对指定节目编号或范围进行说话人分析，该脚本支持预览提示、强制重新处理等参数。清洗流程可通过`clean.py`脚本执行，允许用户针对特定节目应用或测试清洗规则。分析结果存储于`validation/episodes/`目录下的YAML文件中，清晰呈现说话人摘要、未知发言者推断及规则建议。数据集主要用于播客内容挖掘、说话人识别模型训练、对话系统构建及俄语自然语言处理研究，其提供的工具链支持从原始处理到高级分析的全流程工作。

背景与挑战

背景概述

在自然语言处理与音频转录分析领域，高质量的对话数据集对于推动语音识别、说话人分割及多轮对话理解等研究至关重要。Radio-T Data 数据集由社区开发者 ufian 创建并维护，专注于俄罗斯知名科技播客“Радио-Т”的转录文本分析。该数据集收录了自播客开播以来共 992 集的清洗后转录文本，每集均包含详细的说话人标注与时间戳信息。其核心研究问题在于解决长格式、多说话人对话场景下的结构化转录与说话人身份识别，为俄语对话分析、内容摘要及社区驱动型数据工程提供了宝贵的资源。该数据集通过开源工具链与自动化流程，显著降低了多模态对话数据处理的门槛，对俄语自然语言处理社区产生了积极影响。

当前挑战

Radio-T Data 数据集旨在应对多说话人长音频转录分析中的核心挑战，包括在嘈杂音频环境下实现高精度的说话人分割与身份识别，以及处理俄语口语中特有的语言变体、俚语和快速对话节奏。在构建过程中，数据集面临诸多工程挑战：原始转录文本包含大量非标准拼写、重复语句和背景噪音，需设计复杂的规则引擎与人工校验流程进行清洗；说话人身份映射依赖动态更新的参与者列表，且常出现嘉宾更替，导致标注一致性难以维持；此外，依赖 Claude 等大型语言模型进行自动化分析虽提升效率，但受限于 API 调用速率与成本，大规模处理时需精心设计流水线以保障稳定性与可复现性。

常用场景

经典使用场景

在自然语言处理与音频分析领域，Radio-T Data 数据集以其丰富的俄语播客转录文本，为多说话人对话系统的研究提供了宝贵资源。该数据集最经典的使用场景在于训练和评估说话人识别与分离模型，研究者能够利用其精确标注的说话人身份信息，深入探究在自然对话环境中如何准确区分不同参与者的语音片段。

实际应用

在实际应用层面，Radio-T Data 支撑了智能会议记录、播客内容自动索引以及辅助听力设备等系统的开发。基于该数据集训练的模型能够自动生成带说话人标签的转录稿，极大提升了媒体内容生产与归档的效率，并为构建更具上下文感知能力的语音助手提供了数据基础。

衍生相关工作

围绕 Radio-T Data 数据集，已衍生出一系列经典研究工作，主要集中在端到端的说话人日志系统构建、基于深度学习的说话人嵌入提取，以及多模态对话分析框架的开发。这些工作不仅验证了数据集的质量与实用性，也进一步拓展了其在语音识别、社会计算和计算语言学等交叉学科中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集