five

Access-Denied Datasets

收藏
github2023-03-06 更新2024-05-31 收录
下载链接:
https://github.com/tianyin/access_denied_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了486个案例,涉及三个软件项目:Apache HTTP服务器、MySQL、Hadoop和CentOS。数据集不考虑软件版本,每个案例可能来自任何版本的软件。数据集的收集来自邮件列表存档和研究软件的Q&A论坛,包括ServerFault、StackOverflow、Database Administrators、CentOS论坛、Apache HTTP服务器用户邮件列表、MYSQL通用列表、Hadoop用户邮件列表和CentOS邮件列表。数据文件为CSV格式,便于在Google Sheets等电子表格中加载和分析。

This dataset comprises 486 cases across three software projects: Apache HTTP Server, MySQL, Hadoop, and CentOS. The dataset does not consider software versions, with each case potentially originating from any version of the software. The collection of the dataset is sourced from mailing list archives and Q&A forums for software research, including ServerFault, StackOverflow, Database Administrators, CentOS forums, Apache HTTP Server user mailing lists, MySQL general lists, Hadoop user mailing lists, and CentOS mailing lists. The data files are in CSV format, facilitating easy loading and analysis in spreadsheet applications such as Google Sheets.
创建时间:
2017-01-05
原始信息汇总

Access-Denied Datasets 概述

数据集内容

  • 软件项目及案例数量
    • Apache HTTP server: 126 cases (2001--2016)
    • MySQL: 117 cases (1999--2016)
    • Hadoop: 101 cases (2009--2016)
    • CentOS: 142 cases (2005--2016)
  • 版本信息:数据集不考虑软件版本,每个案例可能来自任何版本的软件。

数据收集方法

  • 来源:数据收集自以下平台的邮件列表和论坛:
    • ServerFault
    • StackOverflow
    • Database Administrators
    • CentOS Forums
    • Apache HTTP Server Users Mailing Lists
    • MYSQL General List
    • Hadoop User Mailing Lists
    • CentOS Mailing Lists
  • 收集时间:2016年1月至3月
  • 收集方式:自动爬取并解析邮件列表和在线帖子,最终手动从源文件中提取数据。

数据使用

  • 格式:所有数据文件均为CSV格式,包含标题行。
  • 建议:建议使用Google Sheets等电子表格软件加载CSV文件以提高可读性。
  • 疑问解答:如有关于列或缩写的疑问,可在GitHub仓库中提出问题。

免责声明

  • 数据完整性:CSV数据文件仅为研究中使用的电子表格的一部分,某些用于交叉验证、笔记和草稿的字段已被移除。
搜集汇总
数据集介绍
main_image_url
构建方式
Access-Denied Datasets的构建过程基于对多个开源软件项目的邮件列表存档和问答论坛的深入挖掘。研究团队在2016年1月至3月期间,从ServerFault、StackOverflow、Database Administrators、CentOS Forums等平台,以及Apache HTTP Server、MySQL、Hadoop和CentOS的邮件列表中,爬取并下载了相关的讨论帖子和邮件内容。通过自动化解析和过滤管道,最终手动筛选出486个与访问拒绝问题相关的案例。这些案例涵盖了Apache、MySQL、Hadoop和CentOS四个软件项目,时间跨度从1999年至2016年。
特点
Access-Denied Datasets的特点在于其专注于真实世界中的访问拒绝问题,涵盖了多个知名开源软件项目的长期数据。数据集包含486个案例,分别来自Apache HTTP Server、MySQL、Hadoop和CentOS,时间跨度长达十余年。每个案例均从邮件列表和问答论坛中提取,反映了系统管理员在实际操作中遇到的访问拒绝问题及其解决方案。数据集以CSV格式提供,便于用户进行进一步的分析和研究。
使用方法
使用Access-Denied Datasets时,用户可以直接加载CSV格式的数据文件进行分析。建议使用Google Sheets等电子表格工具,以提高数据的可读性和处理效率。数据集中的每一列均包含特定信息,若对某些列或缩写有疑问,用户可以在GitHub仓库中提交问题,作者将提供详细解答。需要注意的是,CSV文件仅包含研究中使用的一部分数据,部分用于交叉验证的字段和注释已被移除。
背景与挑战
背景概述
Access-Denied Datasets 是由T. Xu、H. M. Naing、L. Lu和Y. Zhou等研究人员于2017年发布的数据集,旨在研究现实世界中系统管理员如何处理访问被拒绝的问题。该数据集基于Apache HTTP服务器、MySQL、Hadoop和CentOS等四个开源软件项目,涵盖了从1999年至2016年间的486个案例。这些案例主要来源于邮件列表存档和问答论坛,如ServerFault、StackOverflow等。该数据集的研究成果发表在CHI'17会议上,为系统管理员处理访问控制问题提供了宝贵的实证数据,对计算机系统管理和安全领域产生了深远影响。
当前挑战
Access-Denied Datasets 的构建面临多重挑战。首先,数据收集过程涉及从多个异构来源(如邮件列表和问答论坛)提取信息,这要求研究人员设计复杂的过滤管道以自动化处理大量非结构化数据。其次,由于案例跨越多年且涉及不同软件版本,数据的标准化和一致性处理成为一大难题。此外,研究团队还需手动筛选和验证数据,以确保其准确性和可靠性。在应用层面,该数据集虽然为访问控制问题的研究提供了丰富素材,但其局限性在于未包含软件版本信息,这可能影响某些特定场景下的分析深度。
常用场景
经典使用场景
Access-Denied Datasets数据集主要用于研究系统管理员在现实世界中如何处理访问被拒绝的问题。该数据集通过分析Apache HTTP服务器、MySQL、Hadoop和CentOS等软件项目的486个案例,揭示了系统管理员在解决访问控制问题时的常见策略和挑战。这些案例来源于邮件列表存档和问答论坛,涵盖了从1999年至2016年的广泛时间跨度,为研究人员提供了丰富的历史数据。
实际应用
在实际应用中,Access-Denied Datasets数据集被广泛用于开发和测试访问控制工具和策略。系统管理员和安全专家可以利用这些数据来优化他们的访问控制流程,减少因访问被拒绝而导致的系统停机时间。此外,该数据集还可用于培训新的系统管理员,帮助他们快速掌握处理访问控制问题的技巧。
衍生相关工作
基于Access-Denied Datasets数据集的研究成果,衍生出了多项经典工作。例如,Xu等人发表的论文《How Do System Administrators Resolve Access-Denied Issues in the Real World?》详细分析了系统管理员在实际操作中的行为模式,并提出了改进访问控制策略的建议。此外,该数据集还被用于开发自动化工具,帮助系统管理员更高效地解决访问控制问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作