BitAbuse

Name: BitAbuse
Creator: 韩国中央大学
Published: 2025-02-06 13:04:04
License: 暂无描述

arXiv2025-02-06 更新2025-02-12 收录

下载链接：

https://github.com/CAU-AutoML/Bitabuse

下载链接

链接失效反馈

官方服务：

资源简介：

BitAbuse数据集是由韩国中央大学等机构创建的，包含325580条句子，其中包含26591条视觉干扰文本句子和298989条非视觉干扰文本句子。该数据集是基于bitcoinabuse[.]com网站收集的与比特币欺诈相关的电子邮件构建的，旨在为防御网络钓鱼攻击提供真实世界的视觉干扰文本数据集。数据集通过人工标注的方式生成了每个字符的标签，以还原非干扰版本的文本。

提供机构：

韩国中央大学

创建时间：

2025-02-06

搜集汇总

数据集介绍

构建方式

BitAbuse数据集的构建方法包括从bitcoinabuse[.]com网站上收集了262,258封与钓鱼相关的电子邮件，并通过BERT模型进行英语文本分类。接着，从这些电子邮件中提取了325,580个句子，其中包括26,591个包含视觉干扰的句子和298,989个非视觉干扰的英语句子。每个输入句子都标注了相应的真实值，即恢复后的非视觉干扰版本。数据集的输入来源于原始语料库，包括视觉干扰的句子和通过人工干扰过程生成的句子。

特点

BitAbuse数据集的特点是包含了来自真实世界的钓鱼案例，并标注了视觉干扰。数据集共有325,580个视觉干扰的文本，其中包含26,591个视觉干扰的句子和298,989个非视觉干扰的英语句子。数据集的输入来源于原始语料库，包括视觉干扰的句子和通过人工干扰过程生成的句子。每个输入句子都标注了相应的真实值，即恢复后的非视觉干扰版本。BitAbuse数据集的构建旨在解决先前研究中使用合成数据集的局限性，并提供一个更接近真实世界的钓鱼案例数据集。

使用方法

BitAbuse数据集的使用方法包括将其用于训练语言模型，以防御钓鱼攻击。在实验中，研究人员使用了SimChar DB、OCR、拼写检查器、基于Character BERT和基于GPT-4o mini的方法来评估数据集的恢复性能。结果表明，基于Character BERT的方法在BitCore数据集上表现出最好的性能，在BitAbuse数据集上也取得了接近完美的性能。BitAbuse数据集的发布为未来研究提供了支持，可用于构建可靠的前训练模型，以执行恢复任务。

背景与挑战

背景概述

BitAbuse数据集是一项针对视觉扰动文本的研究成果，由韩国成均馆大学人工智能系、韩国电子技术研究所和Retrvr Inc.的联合研究团队创建。该数据集旨在解决社会工程学攻击，特别是钓鱼攻击中视觉扰动文本带来的安全挑战。钓鱼攻击者通常利用视觉上相似的字符（homoglyphs）替换文本中的部分字符，从而绕过安全系统。BitAbuse数据集包含了325,580个视觉扰动的文本实例，这些实例是从真实世界的钓鱼案例中收集而来，而非合成数据。每个文本都标注了其对应的原始版本，即未扰动的文本。该数据集的创建为构建可靠的预训练模型以进行文本恢复任务提供了宝贵的资源，并在相关领域产生了显著的影响力。

当前挑战

BitAbuse数据集面临的挑战主要包括：1) 领域问题挑战：钓鱼攻击者不断变化其攻击策略，使用各种视觉上相似的字符来混淆文本，这使得语言模型难以准确地解释内容。2) 构建过程中遇到的挑战：收集足够的真实世界钓鱼案例是一个难题，因为钓鱼邮件通常不被广泛分享。此外，构建过程中需要确保数据集的多样性和真实性，以便语言模型能够适应各种攻击模式。BitAbuse数据集通过混合真实世界和合成的视觉扰动文本，旨在缩小真实世界与模拟环境之间的差距，从而提高模型的鲁棒性和泛化能力。

常用场景

经典使用场景

BitAbuse数据集主要用于训练语言模型，以便更好地识别和还原视觉干扰文本。这些文本通常出现在网络钓鱼攻击中，旨在欺骗安全系统和语言模型，使其无法准确解释内容。通过在BitAbuse数据集上进行训练，模型可以学会识别和还原这些视觉干扰文本，从而提高对网络钓鱼攻击的防御能力。

解决学术问题

BitAbuse数据集解决了以往研究中数据集缺乏真实世界钓鱼案例的问题。之前的研究通常使用合成数据集，这些数据集不包含现实世界中的案例，导致模型在现实世界中的表现可能被高估或低估。BitAbuse数据集包含了从比特币滥用网站收集的325,580个视觉干扰文本，这些文本是从原始语料库中提取的，包括视觉干扰句子和通过人工干扰过程生成的句子。每个输入句子都标注了相应的真实值，即还原后的、未干扰的版本。使用BitAbuse数据集训练的语言模型在识别和还原视觉干扰文本方面表现出显著更好的性能，达到了大约96%的准确率。

衍生相关工作

BitAbuse数据集衍生了许多相关工作，主要集中在视觉干扰文本的识别和还原方面。这些工作包括使用SimChar DB、OCR、拼写检查器和语言模型等方法来识别和还原视觉干扰文本。这些方法在BitAbuse数据集上进行了测试和比较，结果表明，基于字符BERT的方法在识别和还原视觉干扰文本方面表现出最佳性能。此外，BitAbuse数据集还推动了对抗性攻击防御领域的研究，例如，通过结合OCR和字符BERT等方法来提高模型在训练样本不足时的鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集