five

AGGA: A Dataset of Academic Guidelines for Generative AIs|生成式AI数据集|学术规范数据集

收藏
arXiv2025-01-08 更新2025-01-08 收录
生成式AI
学术规范
下载链接:
https://doi.org/10.7910/DVN/XZZHA5
下载链接
链接失效反馈
资源简介:
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究人员共同创建,旨在为生成式AI和大语言模型在学术环境中的使用提供规范参考。该数据集包含80条来自全球六大洲的大学官方指南,总计188,674个单词,涵盖了人文、技术等多个学术领域。数据集的创建过程包括从大学官网收集指南、应用XML Schema进行标准化处理,并通过文本挖掘和计算处理进行深入分析。该数据集主要用于自然语言处理任务,如模型合成、需求分类和文档结构评估,旨在为学术界提供关于生成式AI和大语言模型使用的全面框架。
提供机构:
德克萨斯大学奥斯汀分校城市信息实验室、艾伦人工智能研究所、IBM研究院
创建时间:
2025-01-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
AGGA数据集通过从全球80所大学的官方网站上精心收集了188,674字的学术指南,涵盖了生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用规范。为确保数据的代表性和多样性,研究团队选择了来自六大洲的顶尖大学,涵盖了人文、技术、公共和私立机构等多个学术领域。数据收集后,通过XML Schema(XSD)进行标准化处理,并进行了词频分析和文档结构评估,以确保数据集的技术质量和包容性。
特点
AGGA数据集的特点在于其广泛的全球覆盖性和多样性。数据集不仅涵盖了来自六大洲的学术指南,还反映了不同文化和地区的学术机构对生成式人工智能和大语言模型的使用态度和政策。数据集中的文档具有不同的抽象层次,包括实践标准、公共文档和大学项目等,为自然语言处理任务提供了丰富的素材。此外,数据集还支持多种NLP任务,如模型合成、模糊性检测和需求分类等,具有较高的应用价值。
使用方法
AGGA数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究人员可以利用Python中的NLP工具包(如nltk、sklearn和matplotlib)进行文本挖掘、词频分析和主题建模等操作。数据集提供了DOCX、PDF和Excel三种文件格式,便于不同需求的研究者进行数据导入和分析。建议的研究步骤包括文本标准化、主题建模和情感分析等,以深入挖掘数据集中的潜在信息。此外,数据集的GitHub代码库提供了预处理和分析的脚本,支持研究者进行实验复现和扩展研究。
背景与挑战
背景概述
AGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究团队于2024年创建,旨在为生成式人工智能(GAIs)和大语言模型(LLMs)在学术环境中的使用提供指导。该数据集包含来自全球80所大学的188,674字的学术指南,涵盖了人文、技术、公共和私立机构等多个领域。AGGA不仅为自然语言处理任务(如模型合成、抽象识别和文档结构评估)提供了宝贵资源,还可进一步标注用于模糊性检测、需求分类和等价需求识别等任务。该数据集通过严格的筛选和标准化流程,确保了其全球代表性和技术质量,为学术界在GAIs和LLMs的伦理与创新平衡方面提供了重要参考。
当前挑战
AGGA数据集在构建和应用过程中面临多重挑战。首先,学术指南的多样性和复杂性使得数据收集和标准化变得困难,尤其是在跨文化和跨语言背景下。其次,生成式人工智能和大语言模型的快速发展导致学术指南的更新频繁,数据集需要不断扩展以保持时效性。此外,尽管AGGA涵盖了全球多个地区的大学,但其代表性仍受限于部分地区的政策缺失或公开性不足。在技术层面,文本预处理和自然语言处理任务(如模糊性检测和需求分类)对数据质量要求极高,任何噪声或不一致性都可能影响分析结果的准确性。最后,数据集的广泛应用依赖于其可扩展性和可重复性,这对数据结构和标注方法提出了更高的要求。
常用场景
经典使用场景
AGGA数据集在自然语言处理(NLP)领域中具有广泛的应用场景,尤其是在需求工程任务中。该数据集包含了来自全球80所大学的学术指南,涵盖了生成式人工智能(GAI)和大语言模型(LLM)在学术环境中的使用规范。通过AGGA,研究人员可以进行模型合成、抽象识别、文档结构评估等任务。此外,AGGA还可以用于模糊性检测、需求分类以及等价需求识别等基准测试任务,为NLP研究提供了丰富的文本资源。
解决学术问题
AGGA数据集解决了学术研究中关于生成式人工智能和大语言模型在学术环境中使用的规范性问题。由于全球范围内对GAI和LLM的使用缺乏统一的指导框架,AGGA通过收集和整理来自不同地区和学术领域的指南,填补了这一空白。该数据集不仅为研究人员提供了标准化的文本资源,还支持了NLP技术在需求工程中的应用,帮助学术界更好地理解和规范GAI和LLM的使用,从而在创新与伦理之间找到平衡。
衍生相关工作
AGGA数据集的发布推动了多个相关研究领域的发展。基于该数据集,研究人员开发了多种NLP模型,用于需求分类、模糊性检测和文档结构分析等任务。此外,AGGA还激发了关于生成式人工智能伦理和政策的研究,许多学者利用该数据集探讨了GAI和LLM在学术环境中的潜在影响。例如,一些研究基于AGGA提出了新的框架,用于评估和规范AI工具在学术写作和研究中的使用,进一步推动了学术界对AI技术的理解和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GFS

数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }

地球大数据科学工程 收录

lmarena-ai/arena-human-preference-100k

这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。

hugging_face 收录

ConPR

ConPR数据集由首尔国立大学的机械工程系创建,专注于一个活跃的建筑工地,用于多会话地点识别。该数据集包含12个序列,每个序列捕捉不同日期的建筑进度,涵盖多种环境如车道、楼梯和狭窄的森林道路。数据集包括RGB图像、LiDAR点云数据和IMU数据,支持视觉和LiDAR基础的地点识别技术,并提供基于范围的地点识别评估的地面真实信息。该数据集旨在推动在动态和挑战性环境中的地点识别算法的发展。

arXiv 收录

CWD30

CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。

github 收录