Robocall Audio Dataset

github2024-04-09 更新2024-05-31 收录

下载链接：

https://github.com/wspr-ncsu/robocall-audio-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Robocall音频数据集是一个包含超过一千个自动或半自动电话录音的集合。这些录音通常被称为robocalls。这些录音由FTC通过Project Point of No Entry倡议提供。数据集包含超过一千个实际使用的robocall音频录音，其中大部分是涉嫌非法的电话。恶意行为者使用这些录音来欺骗人们。数据集还包括FTC发送给涉嫌发起呼叫实体（电话运营商或robocaller）的停止和终止信函。

The Robocall Audio Dataset is a collection comprising over a thousand recordings of automated or semi-automated phone calls, commonly referred to as robocalls. These recordings are provided by the FTC through the Project Point of No Entry initiative. The dataset includes more than a thousand actual robocall audio recordings, the majority of which are suspected to be illegal. Malicious actors use these recordings to deceive individuals. Additionally, the dataset contains cease and desist letters sent by the FTC to entities suspected of initiating the calls, such as telephone operators or robocallers.

创建时间：

2023-11-15

原始信息汇总

数据集概述

名称: Robocall Audio Dataset

描述: 该数据集包含超过一千个自动化或半自动化电话（俗称robocalls）的音频记录。这些记录由FTC通过Project Point of No Entry倡议提供。大多数这些robocalls被怀疑是非法的，恶意行为者利用这些录音进行欺诈。数据集还包括FTC发送给涉嫌发起呼叫实体（电话运营商或robocaller）的停止和终止信函。

数据收集

收集方法: 音频记录通过FTC发送给涉嫌呼叫发起实体的停止和终止信函中的链接收集。网页和PDF文件通过自动化爬虫从PPoNE网站收集，使用pdfgrep提取PDF中的链接，并使用wget下载。

音频录制设置

录制来源: 虽然数据集不包含关于这些音频示例收集地点或方式的详细信息，但大多数示例robocall音频记录是通过电话蜜罐、语音邮件或电话用户自行录制的报告收集的。

数据集处理

格式转换: 原始音频格式包括wav、amr和mp3，有些录音是立体声，有些是单声道。所有录音被转换为WAV（pcm_s16le）格式，并重新采样至16kHz。立体声录音被转换为两个单声道流（文件名为_left.wav和_right.wav）。

数据集格式

元数据: metadata.csv包含文件名、音频记录的转录、使用的语言（自动检测）和特定停止和终止信函或警告信函的链接。数据集包含1432个呼叫，其中96.2%（1378个）为英语，3.8%（54个）为普通话/中文。

停止和终止信函及警告信函

文件格式: 停止和终止信函及警告信函以pdf格式存储在pdf_files目录中。metadata.csv中的case_pdf列包含每个音频记录的特定信函链接。

数据集使用

访问方式: 数据集托管在GitHub上，可通过Pandas和HuggingFace数据集轻松访问。

示例代码: 使用Pandas和HuggingFace的datasets库加载和处理数据集的示例代码。

搜集汇总

数据集介绍

构建方式

Robocall Audio Dataset的构建基于美国联邦贸易委员会（FTC）通过‘Project Point of No Entry’倡议提供的真实世界录音。这些录音主要来源于电话用户、语音信箱以及电话网络中的‘蜜罐’系统。数据集中的音频文件格式多样，包括wav、amr和mp3，且部分为立体声。为确保数据集的统一性，所有音频文件被转换为16kHz的单声道WAV格式，并分为左右声道，其中左声道包含机器人呼叫者的音频，右声道包含接收方的音频。

特点

该数据集的显著特点在于其真实性和多样性。它包含了1432个机器人呼叫录音，其中96.2%为英语，3.8%为普通话。数据集不仅提供了音频文件，还包括每个录音的转录文本、语言标识以及相关的停止和终止信函。此外，音频文件的左右声道分离设计，使得研究者可以分别分析呼叫者和接收者的音频内容，增加了数据集的应用灵活性。

使用方法

Robocall Audio Dataset可以通过Pandas或HuggingFace的datasets库轻松加载和使用。用户可以通过metadata.csv文件访问每个音频的文件名、转录文本、语言标识和相关信函链接。数据集的音频文件已预处理为16kHz的WAV格式，便于直接用于语音识别、欺诈检测等研究。此外，数据集的结构化设计使得研究者可以快速检索和分析特定录音的详细信息。

背景与挑战

背景概述

Robocall Audio Dataset是由美国联邦贸易委员会（FTC）通过其‘Project Point of No Entry’倡议发布的一个音频数据集，旨在应对日益增长的非法自动电话呼叫（即‘robocalls’）问题。该数据集包含超过一千个真实的自动或半自动电话录音，这些录音大多被怀疑为非法呼叫，用于欺诈目的。数据集的创建时间为2023年，主要研究人员来自北卡罗来纳州立大学，核心研究问题是如何有效识别和防范这些非法电话呼叫。该数据集的发布对打击电信诈骗、保护消费者权益具有重要意义，同时也为相关领域的研究提供了宝贵的数据资源。

当前挑战

Robocall Audio Dataset在构建过程中面临多项挑战。首先，数据来源多样，包括电话陷阱、语音信箱和用户报告，导致音频格式和质量不一致，需要进行格式转换和标准化处理。其次，音频内容的语言多样性也是一个挑战，数据集中包含英语和普通话，增加了自动转录和语言识别的复杂性。此外，数据集的构建还涉及从PDF文件中提取链接和信息，这一过程需要自动化工具的支持，以确保数据的完整性和准确性。最后，如何从这些音频数据中提取有用的特征，如呼叫者ID和呼叫时间，仍是一个待解决的问题，这需要进一步的技术开发和数据处理。

常用场景

经典使用场景

Robocall Audio Dataset 的经典使用场景主要集中在语音识别和欺诈检测领域。研究者可以利用该数据集训练和评估语音识别模型，特别是针对多语言环境的识别能力。此外，该数据集还可用于开发和测试欺诈检测算法，通过分析语音内容和模式，识别潜在的非法电话行为，从而为反欺诈研究提供有力支持。

衍生相关工作

Robocall Audio Dataset 的发布催生了一系列相关研究工作。例如，研究者利用该数据集开发了多语言语音识别模型，提升了跨语言环境下的识别性能。同时，基于该数据集的欺诈检测算法也被广泛应用于实际系统中，显著提高了非法电话的识别率和拦截效率。此外，该数据集还为语音信号处理和自然语言处理领域的研究提供了新的研究方向和数据支持。

数据集最近研究