five

TPL-Dataset, AAPI Dataset

收藏
github2021-12-21 更新2024-05-31 收录
下载链接:
https://github.com/beyzacevik/Lib2Desc-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TPL-Dataset是一个包含1900个Android第三方库信息的结构化数据集,包括名称、类别、文本描述、文本特征向量和API特征向量等。AAPI Dataset包含Android API调用代码和Javadoc注释,分为训练、验证和测试集。

The TPL-Dataset is a structured dataset containing information on 1,900 Android third-party libraries, including names, categories, textual descriptions, text feature vectors, and API feature vectors. The AAPI Dataset comprises Android API invocation codes and Javadoc annotations, divided into training, validation, and test sets.
创建时间:
2021-12-14
原始信息汇总

数据集概述

TPL-Dataset

  • 描述: 包含1900个Android第三方库的信息。
  • 组成部分:
    • TPL_category_textual-description.csv: 包含第三方库的名称、类别及一般文本描述。
    • TPL_textual_features.csv: 包含第三方库的名称和从文本描述中提取的文本特征向量。
    • TPL_API_features.csv: 包含第三方库的名称和通过静态分析获得的API特征向量。
    • TPL_name_url.csv: 包含第三方库的名称及其描述的网站资源。

AAPI Dataset

  • 描述: 包含Android API调用的代码和Javadoc注释,数据集分为训练、验证和测试集。
  • 组成部分:
    • code.csv: 包含预处理后的Android API调用。
    • javadoc.csv: 包含与API调用匹配的API描述,文本信息已预处理。
搜集汇总
数据集介绍
main_image_url
构建方式
TPL-Dataset的构建基于对1900个Android第三方库的深入分析,涵盖了库的名称、类别、文本描述以及从描述中提取的文本特征向量。此外,通过静态分析获取的API特征向量也被纳入其中,确保了数据的全面性和多样性。AAPI Dataset则通过提取Android API调用的代码及其对应的Javadoc注释,构建了一个包含训练、验证和测试集的结构化数据集,为自然语言生成和序列到序列模型的研究提供了坚实的基础。
特点
TPL-Dataset以其丰富的结构化信息脱颖而出,不仅包含了第三方库的基本信息,还通过文本特征向量和API特征向量提供了多维度的数据支持。AAPI Dataset则以其对Android API调用和Javadoc注释的精确匹配为特点,为开发者提供了一个高质量的语料库,特别适用于自然语言处理和机器学习的模型训练。
使用方法
TPL-Dataset和AAPI Dataset均可用于开发机器学习、深度学习和自然语言生成模型。TPL-Dataset适用于分类任务和基于Transformer的序列到序列模型,而AAPI Dataset则特别适合用于自然语言处理和代码生成的研究。开发者可以通过加载相应的CSV文件,利用这些数据集进行模型的训练和验证,从而推动相关领域的技术进步。
背景与挑战
背景概述
TPL-Dataset和AAPI Dataset是由Beyza Cevik等研究人员在《Lib2Desc: Automatic generation of security-centric Android app descriptions using third-party libraries》论文中提出的数据集。TPL-Dataset包含了1900个Android第三方库的结构化信息,涵盖了库的名称、类别、文本描述以及通过静态分析提取的API特征向量。AAPI Dataset则包含了从原始Android API文档中提取的API调用代码及其对应的Javadoc注释,并分为训练集、验证集和测试集。这些数据集旨在支持机器学习、深度学习和自然语言生成(NLG)模型的开发,特别是在Android应用安全描述自动生成领域具有重要应用价值。
当前挑战
TPL-Dataset和AAPI Dataset的构建面临多重挑战。首先,TPL-Dataset需要从大量第三方库中提取并结构化其文本描述和API特征,这一过程涉及复杂的静态分析和文本处理技术。其次,AAPI Dataset的构建需要对Android API文档进行精确解析,以确保API调用代码与其Javadoc注释的准确匹配,这对数据预处理和标注提出了较高要求。此外,这些数据集的应用场景主要集中在自然语言生成和序列到序列模型的开发,如何有效利用这些数据提升模型性能仍是一个开放性问题。
常用场景
经典使用场景
TPL-Dataset和AAPI Dataset在安卓应用安全领域的研究中扮演着关键角色。TPL-Dataset通过提供1900个安卓第三方库的结构化信息,包括库的类别、文本描述、API特征等,为研究者提供了丰富的资源。AAPI Dataset则包含了安卓API调用的代码和对应的Javadoc注释,为自然语言生成(NLG)和自然语言处理(NLP)模型的开发提供了基础数据。这些数据集广泛应用于安卓应用安全描述自动生成、第三方库分类等任务中。
实际应用
在实际应用中,TPL-Dataset和AAPI Dataset被广泛用于安卓应用的安全分析和自动化工具开发。例如,TPL-Dataset可以用于检测应用中使用的第三方库是否存在已知的安全漏洞,从而帮助开发者及时修复问题。AAPI Dataset则可用于开发自动生成安卓应用安全描述的工具,帮助开发者快速理解API调用的潜在风险。这些应用不仅提高了安卓应用的安全性,还大大减少了开发者的工作量。
衍生相关工作
基于TPL-Dataset和AAPI Dataset,研究者们开发了多种经典的工具和模型。例如,利用TPL-Dataset,研究者开发了自动分类第三方库的工具,帮助开发者快速识别库的类别和功能。基于AAPI Dataset,研究者提出了多种基于深度学习的自然语言生成模型,用于自动生成安卓API的安全描述。这些工作不仅推动了安卓应用安全研究的发展,还为其他领域的自动化工具开发提供了借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作