BotsDetect
收藏Hugging Face2024-12-07 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/infinite-dataset-hub/BotsDetect
下载链接
链接失效反馈官方服务:
资源简介:
BotsDetect数据集包含多种环境参数,用于区分数字环境中的人类和机器人交互。该数据集旨在促进用于机器人检测的机器学习模型的开发。它包括广泛的特征,如鼠标移动、按键和其他可能指示机器人活动的用户行为。此外,它还包含技术细节,如IP地址、设备规格和网络信息,这些信息可能用于识别机器人流量。
The BotsDetect dataset includes a diverse range of environmental parameters for distinguishing between human and robotic interactions in digital environments. This dataset is intended to promote the development of machine learning models for bot detection. It covers a wide spectrum of features, including mouse movements, keystrokes, and other user behaviors that may indicate bot activity. Furthermore, it encompasses technical details such as IP addresses, device specifications, and network information, which can be leveraged to identify bot traffic.
创建时间:
2024-12-03
原始信息汇总
BotsDetect
数据集描述
BotsDetect 数据集包含用于区分数字环境中人类和机器人交互的各种环境参数。该数据集旨在促进用于机器人检测的机器学习模型的开发。它包括鼠标移动、按键和其他用户行为等广泛特征,这些特征可以指示机器人活动。还包括IP地址、设备规格和网络信息等技术细节,这些信息可能用于识别机器人流量。
CSV内容预览
| user_id | timestamp | mouse_movements | keystrokes | scroll_events | page_load_times | click_events | device_type | ip_address | isp | network_latency | bandwidth | vpn_enabled | user_agent | browser_version | plugins_extensions | screen_resolution | language_settings | geolocation | time_based | operating_system | hardware_specifications | label |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 001 | 2023-04-01T12:00:00Z | 123 | 345 | 56 | 0.45s | 5 | desktop | 192.168.1.2 | ISP123 | 10ms | 100Mbps | false | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 | Chrome/91.0.4472.124 | Firefox/89.0 | 1920x1080 | en-US | US, New York | 192.168.1.2 | ISP123 | 10ms | 100Mbps |
| 002 | 2023-04-01T12:05:00Z | 150 | 270 | 30 | 0.50s | 8 | mobile | 172.16.1.1 | ISP234 | 15ms | 50Mbps | false | Mozilla/5.0 (iPhone; CPU iPhone OS 14_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Mobile/15E148 Safari/604.1 | Safari/604.1 | Chrome/89.0.4389.82 | 1080x1920 | en-US | US, California | 172.16.1.1 | ISP234 | 15ms | 50Mbps |
| 003 | 2023-04-01T12:10:00Z | 100 | 200 | 10 | 0.35s | 3 | tablet | 192.168.1.3 | ISP345 | 5ms | 20Mbps | true | Mozilla/5.0 (iPad; CPU OS 14_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Mobile/15E148 Safari/604.1 | Safari/604.1 | Chrome/89.0.4389.82 | 1024x600 | en-US | US, Texas | 192.168.1.3 | ISP345 | 5ms | 20Mbps |
| 004 | 2023-04-01T12:15:00Z | 130 | 320 | 15 | 0.40s | 1 | laptop | 10.0.0.4 | ISP456 | 20ms | 100Mbps | false | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 | Chrome/91.0.4472.124 | Chrome/91.0.4472.12 | 1024x600 | en-US | US, Texas | 10.0.0.4 | ISP456 | 20ms | 100Mbps |
数据来源
该数据集使用 Infinite Dataset Hub 和 microsoft/Phi-3-mini-4k-instruct 生成。
- 数据集生成页面: https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub?q=&dataset=BotsDetect&tags=Classification,+Human/Bit+Detection,+Mouse+Movements,+Keystrokes
- 模型: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
- 更多数据集: https://huggingface.co/datasets?other=infinite-dataset-hub
搜集汇总
数据集介绍

构建方式
在构建BotsDetect数据集时,研究者通过收集多种环境参数来区分数字环境中的人类与机器人交互行为。该数据集涵盖了鼠标移动、键盘敲击、页面加载时间等多维度用户行为特征,以及IP地址、设备规格和网络信息等技术细节。这些数据通过Infinite Dataset Hub生成,并结合microsoft/Phi-3-mini-4k-instruct模型进行处理,旨在为机器学习模型提供丰富的训练数据,以实现高效的机器人检测。
特点
BotsDetect数据集的显著特点在于其多维度的特征集合,不仅包括用户行为数据,如鼠标移动和键盘敲击,还涵盖了设备和网络层面的详细信息。此外,数据集中的标签明确区分了人类与机器人的行为,为分类任务提供了清晰的训练目标。值得注意的是,尽管数据集由AI生成,但其内容可能存在不准确或虚假的情况,使用时需谨慎验证。
使用方法
BotsDetect数据集适用于开发和训练用于机器人检测的机器学习模型。用户可以通过加载该数据集,提取鼠标移动、键盘敲击等行为特征,以及设备和网络信息,进行特征工程和模型训练。数据集的标签可用于监督学习,帮助模型区分人类与机器人的交互行为。此外,由于数据集的生成方式,用户在使用时应考虑其潜在的不准确性,并结合其他验证手段以确保模型的可靠性。
背景与挑战
背景概述
随着数字化环境的迅速扩展,区分人类用户与自动化程序(即‘bots’)的交互行为成为网络安全领域的重要课题。BotsDetect数据集应运而生,旨在通过收集多种环境参数,如鼠标移动、键盘敲击、页面加载时间等,来帮助构建能够有效识别和区分人类与bots交互的机器学习模型。该数据集由Infinite Dataset Hub生成,结合了微软的Phi-3-mini-4k-instruct模型,涵盖了广泛的用户行为特征和技术细节,如IP地址、设备规格和网络信息,这些都可能用于识别bots流量。BotsDetect的创建不仅为研究者提供了一个丰富的数据资源,也为提升网络安全防护能力提供了新的工具。
当前挑战
尽管BotsDetect数据集在区分人类与bots交互方面展现了巨大潜力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的生成依赖于AI技术,可能导致内容的不准确或虚假,这要求研究者在模型训练时需进行严格的数据清洗和验证。其次,用户行为的多样性和复杂性使得特征选择和模型设计变得尤为关键,如何有效捕捉并利用这些特征以提高模型的准确性和鲁棒性是一大挑战。此外,随着技术的不断进步,bots的行为模式也在不断演变,这要求数据集和模型必须持续更新和优化,以应对日益复杂的网络安全威胁。
常用场景
经典使用场景
在数字交互领域,BotsDetect数据集的经典应用场景主要集中在区分人类用户与自动化脚本(即‘机器人’)的交互行为。通过分析用户的鼠标移动、键盘敲击频率、页面加载时间等多维度特征,该数据集为构建高效的机器学习模型提供了丰富的训练数据。这些模型能够识别出异常的交互模式,从而在电子商务、社交媒体等平台中有效防范恶意机器人行为,确保用户体验的真实性与安全性。
解决学术问题
BotsDetect数据集在学术研究中解决了自动化脚本检测的核心问题,即如何在复杂的数字环境中精准区分人类与机器的交互行为。通过提供多维度的用户行为数据,该数据集为研究者提供了丰富的实验材料,推动了行为分析、异常检测等领域的技术进步。其意义在于为网络安全、用户行为建模等研究提供了新的视角与方法,进一步提升了自动化检测技术的准确性与鲁棒性。
衍生相关工作
基于BotsDetect数据集,研究者们开发了多种先进的自动化检测模型,推动了相关领域的技术发展。例如,一些研究工作利用该数据集训练深度学习模型,提升了机器人检测的准确率与实时性;另一些工作则结合行为分析与网络特征,提出了多层次的检测框架,进一步增强了模型的泛化能力。此外,该数据集还激发了关于用户行为建模与异常检测的跨学科研究,促进了网络安全与人工智能领域的交叉创新。
以上内容由遇见数据集搜集并总结生成



