five

AGGA: A Dataset of Academic Guidelines for Generative AIs|生成式AI数据集|学术规范数据集

收藏
arXiv2025-01-08 更新2025-01-08 收录
生成式AI
学术规范
下载链接:
https://doi.org/10.7910/DVN/XZZHA5
下载链接
链接失效反馈
资源简介:
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究人员共同创建,旨在为生成式AI和大语言模型在学术环境中的使用提供规范参考。该数据集包含80条来自全球六大洲的大学官方指南,总计188,674个单词,涵盖了人文、技术等多个学术领域。数据集的创建过程包括从大学官网收集指南、应用XML Schema进行标准化处理,并通过文本挖掘和计算处理进行深入分析。该数据集主要用于自然语言处理任务,如模型合成、需求分类和文档结构评估,旨在为学术界提供关于生成式AI和大语言模型使用的全面框架。
提供机构:
德克萨斯大学奥斯汀分校城市信息实验室、艾伦人工智能研究所、IBM研究院
创建时间:
2025-01-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
AGGA数据集通过从全球80所大学的官方网站上精心收集了188,674字的学术指南,涵盖了生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用规范。为确保数据的代表性和多样性,研究团队选择了来自六大洲的顶尖大学,涵盖了人文、技术、公共和私立机构等多个学术领域。数据收集后,通过XML Schema(XSD)进行标准化处理,并进行了词频分析和文档结构评估,以确保数据集的技术质量和包容性。
特点
AGGA数据集的特点在于其广泛的全球覆盖性和多样性。数据集不仅涵盖了来自六大洲的学术指南,还反映了不同文化和地区的学术机构对生成式人工智能和大语言模型的使用态度和政策。数据集中的文档具有不同的抽象层次,包括实践标准、公共文档和大学项目等,为自然语言处理任务提供了丰富的素材。此外,数据集还支持多种NLP任务,如模型合成、模糊性检测和需求分类等,具有较高的应用价值。
使用方法
AGGA数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究人员可以利用Python中的NLP工具包(如nltk、sklearn和matplotlib)进行文本挖掘、词频分析和主题建模等操作。数据集提供了DOCX、PDF和Excel三种文件格式,便于不同需求的研究者进行数据导入和分析。建议的研究步骤包括文本标准化、主题建模和情感分析等,以深入挖掘数据集中的潜在信息。此外,数据集的GitHub代码库提供了预处理和分析的脚本,支持研究者进行实验复现和扩展研究。
背景与挑战
背景概述
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究团队于2024年创建,旨在为生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用提供指导。该数据集包含来自全球80所大学的188,674字的学术指南,涵盖了人文、技术、公共和私立机构等多个领域。AGGA不仅为自然语言处理任务(如模型合成、抽象识别和文档结构评估)提供了宝贵资源,还可进一步标注用于模糊性检测、需求分类和等价需求识别等任务。该数据集通过严格的筛选和标准化流程,确保了其全球代表性和技术质量,为学术界在GAIs和LLMs的伦理与创新平衡方面提供了重要参考。
当前挑战
AGGA数据集在构建和应用过程中面临多重挑战。首先,学术指南的多样性和复杂性使得数据收集和标准化变得困难,尤其是在跨文化和跨语言背景下。其次,生成式人工智能和大语言模型的快速发展导致学术指南的更新频繁,数据集需要不断扩展以保持时效性。此外,尽管AGGA涵盖了全球多个地区的大学,但其代表性仍受限于部分地区的政策缺失或公开性不足。在技术层面,文本预处理和自然语言处理任务(如模糊性检测和需求分类)对数据质量要求极高,任何噪声或不一致性都可能影响分析结果的准确性。最后,数据集的广泛应用依赖于其可扩展性和可重复性,这对数据结构和标注方法提出了更高的要求。
常用场景
经典使用场景
AGGA数据集在自然语言处理(NLP)领域中具有广泛的应用场景,尤其是在需求工程任务中。该数据集包含了来自全球80所大学的学术指南,涵盖了生成式人工智能(GAI)和大语言模型(LLM)在学术环境中的使用规范。通过AGGA,研究人员可以进行模型合成、抽象识别、文档结构评估等任务。此外,AGGA还可以用于模糊性检测、需求分类以及等价需求识别等基准测试任务,为NLP研究提供了丰富的文本资源。
解决学术问题
AGGA数据集解决了学术研究中关于生成式人工智能和大语言模型在学术环境中使用的规范性问题。由于全球范围内对GAI和LLM的使用缺乏统一的指导框架,AGGA通过收集和整理来自不同地区和学术领域的指南,填补了这一空白。该数据集不仅为研究人员提供了标准化的文本资源,还支持了NLP技术在需求工程中的应用,帮助学术界更好地理解和规范GAI和LLM的使用,从而在创新与伦理之间找到平衡。
衍生相关工作
AGGA数据集的发布推动了多个相关研究领域的发展。基于该数据集,研究人员开发了多种NLP模型,用于需求分类、模糊性检测和文档结构分析等任务。此外,AGGA还激发了关于生成式人工智能伦理和政策的研究,许多学者利用该数据集探讨了GAI和LLM在学术环境中的潜在影响。例如,一些研究基于AGGA提出了新的框架,用于评估和规范AI工具在学术写作和研究中的使用,进一步推动了学术界对AI技术的理解和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

绿途App——植被信息数据采集服务软件

绿途app是一款植被信息数据采集服务的软件应用,还能在这里进行数据的整理,智能的为用户带来便捷的数据采集服务,还能在这里生成报表分析,更好的服务用户的数据需求,操作起来便捷快速,更好的服务用户,让用户在这里可以享受到优质的信息服务,满足用户的需求。 绿途app介绍 绿途app是一款专业的植被分布数据采集软件。 绿途app可以加载多源遥感地图,同时提供了打点记录模式和拍照记录模式, 并支持离线上传和编辑修改等功能。 绿途app是由北京数字绿土科技有限公司开发,由中国科学院植物研究所提供数据和理论支持。 绿途app特点 绿途app具备普通用户拍照记录模式和专家用户打点记录模式。 拍照模式下,用户可以根据绿途app自带的自动定位功能,在当前GPS位置下进行图像数据的采集,描述类别并上传到服务端。 打点模式下,用户可以根据绿途app自动的谷歌影像和1:100万植被图等图层作为参考,进行目视范围内植被名称的快速标记,上传。 上传到服务端的数据可以通过用户名或者绿途app设置中的扫一扫功能登陆网页端进行数据的查看,审核和下载等功能。 同时,绿途app包含由离线数据存储方便用户在网络条件差的情况下进行数据的获取和后期上传。 绿途app优势 专家打点记录功能,可快速在地图取点标记植被分布信息,对于专家用户快速作业提供了新手段; 离线数据上传功能,有效解决了APP在野外作业没有网络无法实现数据上传的挑战; 数据的编辑和下载使用,同时支持扫一扫登陆网页端等人性化设计。 绿途app功能 1)多源遥感底图(高德卫星图像和谷歌卫星图像)的加载显示和离线下载,方便用户做好外业规划和实地参考; 2)支持兴趣点的创建和导航,方便用户标记感兴趣的研究区,保存历史记录,同时兴趣点支持导航等功能,方便用户标记热点和重点区域再次进行调查; 3)拍照记录功能,为用户提供了快速高效的照片信息采集功能,同时照片记录有用户GPS信息,提升了数据的使用价值; 绿途app说明 绿途app是一款在线进行提供地图信息资源的平台。 这是有中国科学院进行研发制作出来的,所有的信息资源都是可以在线进行查看的, 为的就是帮助用户进行更好的出行与查询的, 是可以在线进行使用导航的,都是有现有的信息进行汇集起来的哦。

植物科学数据中心 收录

Multi-view Datasets

该数据集包含多个多视角基准数据集,用于聚类或分类任务。数据集包括AwA、COIL100、MNIST2、NUSWIDEOBJ、PIE和YoutubeFaces,每个数据集都有详细的描述和多视角特征。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录