BothBosu/scam-dialogue

Name: BothBosu/scam-dialogue
Creator: BothBosu
Published: 2024-06-30 13:09:01
License: 暂无描述

Hugging Face2024-06-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BothBosu/scam-dialogue

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Multi-Turn Scam and Non-Scam Phone Dialogue Dataset是一个包含模拟电话对话的数据集，对话被标记为诈骗或非诈骗。该数据集旨在帮助开发和评估检测和分类各种电话诈骗的模型。数据集包含三列：`dialogue`（对话内容）、`type`（诈骗或非诈骗的具体类型）和`label`（二进制标签，1表示诈骗，0表示非诈骗）。诈骗类型包括社会安全号码诈骗、退款诈骗、技术支持诈骗和奖励诈骗；非诈骗类型包括合法的送货确认电话、保险销售电话、电话营销电话和错误号码电话。数据集是使用meta-llama-3-70b-instruct生成的，旨在用于自然语言处理领域的研究和开发，特别是构建检测和分类电话诈骗的模型。

提供机构：

BothBosu

原始信息汇总

Synthetic Multi-Turn Scam and Non-Scam Phone Dialogue Dataset

数据集描述

该数据集包含模拟电话对话，标记为诈骗或非诈骗互动，旨在帮助开发和评估检测和分类各种电话诈骗类型的模型。

数据集结构

数据集包含三个列：

dialogue: 呼叫者和接收者之间的转录对话。
type: 诈骗或非诈骗互动的具体类型。
label: 二元标签，指示对话是否为诈骗（1）或非诈骗（0）。

诈骗类型（标签1）

ssn: 社会安全号码诈骗，诈骗者试图获取受害者的SSN。
refund: 退款诈骗，诈骗者试图说服受害者他们应得退款。
support: 技术支持诈骗，诈骗者冒充支持代表以获取受害者计算机或个人信息。
reward: 奖励诈骗，如涉及礼品卡的诈骗，诈骗者承诺奖励以换取个人信息或金钱。

非诈骗类型（标签0）

delivery: 合法的送货确认电话。
insurance: 真实的保险销售电话。
telemarketing: 合法的电话营销电话。
wrong: 错误的号码呼叫，对话不是诈骗尝试。

数据集创建

数据集中的对话是使用meta-llama-3-70b-instruct合成的，以模拟真实世界的诈骗和非诈骗电话互动。

预期用途

该数据集旨在用于自然语言处理领域的研究和开发，特别是用于构建检测和分类电话诈骗的模型。通过提供标记的诈骗和非诈骗对话数据集，研究人员可以开发和评估算法，帮助保护个人免受电话诈骗的侵害。

许可证

该数据集根据Apache许可证2.0发布。使用此数据集，您同意遵守许可证的条款和条件。

搜集汇总

数据集介绍

构建方式

该数据集通过模拟真实世界的电话对话，利用meta-llama-3-70b-instruct模型生成了多轮诈骗与非诈骗电话对话。对话内容涵盖了多种诈骗类型，如社会安全号码诈骗、退款诈骗、技术支持诈骗和奖励诈骗，以及非诈骗类型的对话，如快递确认、保险销售、电话营销和错误号码通话。每段对话均经过标注，明确区分了诈骗与非诈骗的类别。

特点

该数据集的特点在于其多样性和实用性。它不仅包含了多种诈骗类型的对话，还涵盖了多种非诈骗场景，为研究者提供了丰富的训练和测试材料。数据集中的对话均为多轮对话，模拟了真实电话交流的复杂性，有助于提升模型在实际应用中的表现。此外，数据集的标注清晰，便于研究者进行模型训练和评估。

使用方法

该数据集适用于自然语言处理领域的研究与开发，特别是用于构建和评估电话诈骗检测与分类模型。研究者可以利用该数据集训练模型，识别和分类不同类型的诈骗对话。通过分析对话内容，模型可以学习到诈骗对话的特征，从而在实际应用中帮助用户识别潜在的诈骗行为。使用该数据集时，研究者应注意其合成数据的局限性，并结合其他真实数据进行验证，以确保模型的鲁棒性和准确性。

背景与挑战

背景概述

在当今数字化时代，电话诈骗已成为全球范围内的重大社会问题，严重威胁个人隐私和财产安全。为了应对这一挑战，BothBosu/scam-dialogue数据集应运而生，旨在通过模拟真实电话对话，帮助开发和研究检测电话诈骗的自然语言处理模型。该数据集由研究人员利用meta-llama-3-70b-instruct模型生成，涵盖了多种诈骗类型，如社保号码诈骗、退款诈骗、技术支持诈骗和奖励诈骗，以及非诈骗类对话，如配送确认、保险销售、电话营销和错误号码通话。该数据集的创建标志着在电话诈骗检测领域迈出了重要一步，为相关研究提供了宝贵的资源。

当前挑战

尽管BothBosu/scam-dialogue数据集为电话诈骗检测研究提供了重要支持，但其构建和应用仍面临诸多挑战。首先，由于数据是通过合成生成的，可能无法完全捕捉真实电话对话中的复杂性和多样性，导致模型在实际应用中的泛化能力受限。其次，生成过程中可能存在潜在的偏见，影响模型的公正性和准确性。此外，电话诈骗手段不断演变，数据集可能无法涵盖所有新型诈骗类型，需要持续更新和扩展。最后，如何在保护用户隐私的前提下，有效利用和共享此类敏感数据，也是研究人员需要慎重考虑的问题。

常用场景

经典使用场景

在自然语言处理领域，BothBosu/scam-dialogue数据集被广泛应用于电话诈骗检测模型的开发与评估。通过模拟真实世界的电话对话，该数据集为研究者提供了一个标准化的测试平台，用于训练和验证能够识别诈骗对话的算法。其多轮对话结构和详细的标签系统使得模型能够在复杂的对话环境中准确区分诈骗与非诈骗行为。

衍生相关工作

基于BothBosu/scam-dialogue数据集，研究者们已经开发了多种先进的诈骗检测模型，如基于深度学习的多轮对话分类器和基于注意力机制的诈骗意图识别系统。这些工作不仅提升了诈骗检测的准确率，还为其他相关领域的研究提供了新的思路和方法，例如社交工程攻击检测和网络钓鱼识别等。

数据集最近研究