five

TV Talk Shows Corpus

收藏
arXiv2018-09-29 更新2024-06-21 收录
下载链接:
https://sites.google.com/site/ neuralspeaker/
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建的‘TV Talk Shows Corpus’数据集,由北京大学软件研究所收集,包含超过8000集电视脱口秀的转录文本,总计约216059条数据。数据集的创建旨在支持多参与者对话中的发言人建模研究,特别是发言人分类任务。该数据集通过爬取Cable News Network网站的转录文本构建,每条数据包含一个或多个连续句子,由特定发言人说出。数据集的应用领域包括语音分割、识别等语音处理技术,旨在通过文本理解提升这些技术的性能。

The 'TV Talk Shows Corpus' dataset constructed in this study was collected by the Institute of Software, Peking University. It contains transcripts of over 8,000 episodes of TV talk shows, totaling approximately 216,059 data samples. This dataset was developed to support research on speaker modeling in multi-participant conversations, particularly the speaker classification task. It was constructed by scraping transcripts from the Cable News Network (CNN) website. Each entry comprises one or more consecutive sentences uttered by a specific speaker. The dataset has applications in speech processing technologies such as speech segmentation and speech recognition, aiming to improve the performance of these technologies through text understanding.
提供机构:
北京大学软件研究所
创建时间:
2017-08-10
搜集汇总
数据集介绍
main_image_url
构建方式
TV Talk Shows Corpus的构建源于对多轮对话中神经说话人建模的探索,研究者从CNN网站抓取了超过8000集电视脱口秀的转录文本。为适应说话人分类这一替代任务,对话被按说话人分割为若干片段,每个片段包含一个或多个连续语句。候选说话人集合限定为当前说话人之前最近的5位说话人,且每位说话人至少拥有3条历史语句,最多保留5条。数据按剧集而非句子划分训练集、验证集和测试集,确保无跨集重叠,最终获得约17.4万训练样本、2.1万验证样本和2万测试样本。
特点
该数据集的核心特点在于其大规模、多说话人及真实场景的对话结构。转录文本源自电视脱口秀,天然包含丰富的说话人轮换、内容交互与话题演变,为建模说话人的内容特征和时序特征提供了坚实基础。数据集呈现明显的类别不平衡,多数类猜测准确率高达74%,这促使研究采用宏平均F1值作为主要评估指标,以更公平地衡量模型对少数类的识别能力。此外,数据集的构建严格区分训练与测试剧集,避免了信息泄露,提升了评估的可靠性。
使用方法
使用该数据集时,研究者可将其应用于说话人分类任务,即根据当前语句预测其所属说话人。模型通常采用层次化循环神经网络编码当前语句,同时利用内容信息(说话人历史语句)或时序信息(说话人最近发言顺序)构建说话人向量,并通过softmax函数计算概率。为进一步提升性能,可采用混合模型,将内容与时序预测通过插值或门控机制融合,其中插值策略在实验中表现最优。数据集还支持注意力机制等扩展,但简单模型在多数指标上已展现出色效果。
背景与挑战
背景概述
多轮对话系统作为人机交互的重要范式,近年来在学术界与工业界均获得了广泛关注。然而,现有神经对话模型在建模过程中往往忽略说话者身份信息,导致生成的回复缺乏个性与连贯性。为了填补这一空白,Zhao Meng、Lili Mou与Zhi Jin等人于2018年提出了TV Talk Shows Corpus数据集,该数据集由北京大学、苏黎世联邦理工学院与AdeptMind Research联合构建,旨在推动多方对话中的说话者建模研究。研究团队从CNN网站爬取了超过8000集电视脱口秀的文本转录,构建了包含约21.6万个样本的大规模语料库,并以此为基础提出了说话者分类这一代理任务,为神经说话者建模提供了标准化的评估基准。该数据集在AAAI-18上首次亮相,其发布不仅促进了说话者识别与对话生成领域的交叉融合,也为后续研究提供了重要的数据支撑。
当前挑战
TV Talk Shows Corpus所解决的核心领域问题是多轮对话中说话者的建模与识别,这一任务面临多重挑战。首先,对话场景中说话者数量动态变化,且存在频繁的发言轮次切换,使得模型需具备对时序与内容双重信息的融合能力。其次,数据构建过程中面临显著的类别不均衡问题,部分说话者发言频次极高,导致多数类猜测基线准确率高达74.01%,而少数类识别性能则大幅下降,宏平均F1值仅为19.93%。此外,转录文本存在噪声与不完整现象,且说话者依赖的上下文窗口长度有限(最多5句),增加了模型对长期语义依赖建模的难度。最后,现有基于嵌入的说话者表示方法难以泛化至罕见或未见过的说话者,进一步加剧了模型在实际部署中的鲁棒性挑战。
常用场景
经典使用场景
TV Talk Shows Corpus 的核心应用场景在于多轮对话中的说话人分类任务,旨在从多参与者对话中识别当前话语的发言者。该数据集基于 CNN 网站收集的超过 8000 集电视脱口秀转录文本,构建了大规模、真实的多方对话语料库。研究者利用该数据集训练神经模型,将说话人分类作为通用说话人建模的替代任务,通过结合话语内容与说话人出现的时序信息,有效预测发言者身份,为对话系统理解复杂交互结构提供了基础性支撑。
解决学术问题
该数据集解决了神经对话系统中缺乏标准说话人建模任务与数据集的学术困境。传统对话模型往往忽略说话人信息,导致上下文建模失真。通过提出说话人分类任务,该数据集为评估说话人建模能力提供了基准,并揭示了内容与时序信息在预测中的互补性。其意义在于推动了神经模型从单纯处理文本序列向感知多参与者交互动态的转变,为后续研究如语音日志分割、个性化回复生成等奠定了方法论与数据基础。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于分层循环神经网络的内容与时序混合模型,以及受可微分神经计算机启发的自适应门控机制。研究者进一步探索了注意力机制在说话人向量聚合中的作用,并对比了不同插值策略的效能。这些工作不仅验证了说话人分类的可行性,还启发了后续如个性化对话生成、收信人预测等任务,推动了神经说话人建模在多方对话领域的系统性发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作