AGGA: A Dataset of Academic Guidelines for Generative AIs
收藏arXiv2025-01-08 更新2025-01-08 收录
下载链接:
https://doi.org/10.7910/DVN/XZZHA5
下载链接
链接失效反馈官方服务:
资源简介:
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究人员共同创建,旨在为生成式AI和大语言模型在学术环境中的使用提供规范参考。该数据集包含80条来自全球六大洲的大学官方指南,总计188,674个单词,涵盖了人文、技术等多个学术领域。数据集的创建过程包括从大学官网收集指南、应用XML Schema进行标准化处理,并通过文本挖掘和计算处理进行深入分析。该数据集主要用于自然语言处理任务,如模型合成、需求分类和文档结构评估,旨在为学术界提供关于生成式AI和大语言模型使用的全面框架。
The AGGA dataset was co-created by researchers from The University of Texas at Austin, the Allen Institute for AI, and IBM Research, aiming to provide standardized references for the application of generative AI and Large Language Models (LLMs) in academic settings. This dataset comprises 80 official university guidelines sourced from six continents worldwide, with a total of 188,674 words, covering multiple academic disciplines including humanities and technology. The development process of the dataset includes collecting guidelines from university official websites, standardizing them using XML Schema, and conducting in-depth analysis via text mining and computational processing. This dataset is primarily utilized for natural language processing (NLP) tasks such as model synthesis, requirement classification, and document structure evaluation, with the goal of providing a comprehensive framework for academic communities regarding the use of generative AI and LLMs.
提供机构:
德克萨斯大学奥斯汀分校城市信息实验室、艾伦人工智能研究所、IBM研究院
创建时间:
2025-01-04
搜集汇总
数据集介绍

构建方式
AGGA数据集通过从全球80所大学的官方网站上精心收集了188,674字的学术指南,涵盖了生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用规范。为确保数据的代表性和多样性,研究团队选择了来自六大洲的顶尖大学,涵盖了人文、技术、公共和私立机构等多个学术领域。数据收集后,通过XML Schema(XSD)进行标准化处理,并进行了词频分析和文档结构评估,以确保数据集的技术质量和包容性。
特点
AGGA数据集的特点在于其广泛的全球覆盖性和多样性。数据集不仅涵盖了来自六大洲的学术指南,还反映了不同文化和地区的学术机构对生成式人工智能和大语言模型的使用态度和政策。数据集中的文档具有不同的抽象层次,包括实践标准、公共文档和大学项目等,为自然语言处理任务提供了丰富的素材。此外,数据集还支持多种NLP任务,如模型合成、模糊性检测和需求分类等,具有较高的应用价值。
使用方法
AGGA数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究人员可以利用Python中的NLP工具包(如nltk、sklearn和matplotlib)进行文本挖掘、词频分析和主题建模等操作。数据集提供了DOCX、PDF和Excel三种文件格式,便于不同需求的研究者进行数据导入和分析。建议的研究步骤包括文本标准化、主题建模和情感分析等,以深入挖掘数据集中的潜在信息。此外,数据集的GitHub代码库提供了预处理和分析的脚本,支持研究者进行实验复现和扩展研究。
背景与挑战
背景概述
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究团队于2024年创建,旨在为生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用提供指导。该数据集包含来自全球80所大学的188,674字的学术指南,涵盖了人文、技术、公共和私立机构等多个领域。AGGA不仅为自然语言处理任务(如模型合成、抽象识别和文档结构评估)提供了宝贵资源,还可进一步标注用于模糊性检测、需求分类和等价需求识别等任务。该数据集通过严格的筛选和标准化流程,确保了其全球代表性和技术质量,为学术界在GAIs和LLMs的伦理与创新平衡方面提供了重要参考。
当前挑战
AGGA数据集在构建和应用过程中面临多重挑战。首先,学术指南的多样性和复杂性使得数据收集和标准化变得困难,尤其是在跨文化和跨语言背景下。其次,生成式人工智能和大语言模型的快速发展导致学术指南的更新频繁,数据集需要不断扩展以保持时效性。此外,尽管AGGA涵盖了全球多个地区的大学,但其代表性仍受限于部分地区的政策缺失或公开性不足。在技术层面,文本预处理和自然语言处理任务(如模糊性检测和需求分类)对数据质量要求极高,任何噪声或不一致性都可能影响分析结果的准确性。最后,数据集的广泛应用依赖于其可扩展性和可重复性,这对数据结构和标注方法提出了更高的要求。
常用场景
经典使用场景
AGGA数据集在自然语言处理(NLP)领域中具有广泛的应用场景,尤其是在需求工程任务中。该数据集包含了来自全球80所大学的学术指南,涵盖了生成式人工智能(GAI)和大语言模型(LLM)在学术环境中的使用规范。通过AGGA,研究人员可以进行模型合成、抽象识别、文档结构评估等任务。此外,AGGA还可以用于模糊性检测、需求分类以及等价需求识别等基准测试任务,为NLP研究提供了丰富的文本资源。
解决学术问题
AGGA数据集解决了学术研究中关于生成式人工智能和大语言模型在学术环境中使用的规范性问题。由于全球范围内对GAI和LLM的使用缺乏统一的指导框架,AGGA通过收集和整理来自不同地区和学术领域的指南,填补了这一空白。该数据集不仅为研究人员提供了标准化的文本资源,还支持了NLP技术在需求工程中的应用,帮助学术界更好地理解和规范GAI和LLM的使用,从而在创新与伦理之间找到平衡。
衍生相关工作
AGGA数据集的发布推动了多个相关研究领域的发展。基于该数据集,研究人员开发了多种NLP模型,用于需求分类、模糊性检测和文档结构分析等任务。此外,AGGA还激发了关于生成式人工智能伦理和政策的研究,许多学者利用该数据集探讨了GAI和LLM在学术环境中的潜在影响。例如,一些研究基于AGGA提出了新的框架,用于评估和规范AI工具在学术写作和研究中的使用,进一步推动了学术界对AI技术的理解和应用。
以上内容由遇见数据集搜集并总结生成



