Robocall Audio Dataset
收藏数据集概述
名称: Robocall Audio Dataset
描述: 该数据集包含超过一千个自动化或半自动化电话(俗称robocalls)的音频记录。这些记录由FTC通过Project Point of No Entry倡议提供。大多数这些robocalls被怀疑是非法的,恶意行为者利用这些录音进行欺诈。数据集还包括FTC发送给涉嫌发起呼叫实体(电话运营商或robocaller)的停止和终止信函。
数据收集
收集方法: 音频记录通过FTC发送给涉嫌呼叫发起实体的停止和终止信函中的链接收集。网页和PDF文件通过自动化爬虫从PPoNE网站收集,使用pdfgrep提取PDF中的链接,并使用wget下载。
音频录制设置
录制来源: 虽然数据集不包含关于这些音频示例收集地点或方式的详细信息,但大多数示例robocall音频记录是通过电话蜜罐、语音邮件或电话用户自行录制的报告收集的。
数据集处理
格式转换: 原始音频格式包括wav、amr和mp3,有些录音是立体声,有些是单声道。所有录音被转换为WAV(pcm_s16le)格式,并重新采样至16kHz。立体声录音被转换为两个单声道流(文件名为_left.wav和_right.wav)。
数据集格式
元数据: metadata.csv包含文件名、音频记录的转录、使用的语言(自动检测)和特定停止和终止信函或警告信函的链接。数据集包含1432个呼叫,其中96.2%(1378个)为英语,3.8%(54个)为普通话/中文。
停止和终止信函及警告信函
文件格式: 停止和终止信函及警告信函以pdf格式存储在pdf_files目录中。metadata.csv中的case_pdf列包含每个音频记录的特定信函链接。
数据集使用
访问方式: 数据集托管在GitHub上,可通过Pandas和HuggingFace数据集轻松访问。
示例代码: 使用Pandas和HuggingFace的datasets库加载和处理数据集的示例代码。




