IGGA: A Dataset of Industrial Guidelines and Policy Statements for Generative AIs

Name: IGGA: A Dataset of Industrial Guidelines and Policy Statements for Generative AIs
Creator: 德克萨斯大学奥斯汀分校, 艾伦人工智能研究所, IBM研究院
Published: 2025-01-02 05:31:47
License: 暂无描述

arXiv2025-01-02 更新2025-01-06 收录

下载链接：

https://doi.org/10.7910/DVN/4LOXUW

下载链接

链接失效反馈

官方服务：

资源简介：

IGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院联合创建，包含160条来自全球领先公司的生成式AI和大语言模型（LLM）的行业指南和政策声明。数据集共包含104,565个单词，涵盖了14个行业和7大洲的多样化视角，数据来源于公司官方网站和可信新闻源。通过严格的筛选和标准化处理，数据集为自然语言处理任务如模型合成、需求分类和文档结构评估提供了丰富资源。IGGA数据集的应用领域包括AI治理、工作场所整合和管理策略，旨在解决生成式AI在行业应用中缺乏标准化政策的问题。

The IGGA dataset was jointly developed by The University of Texas at Austin, the Allen Institute for AI, and IBM Research. It includes 160 industry guidelines and policy statements on generative AI and large language models (LLMs) from leading global corporations. Comprising a total of 104,565 words, the dataset covers diverse perspectives across 14 industries and 7 continents, with data sourced from official company websites and credible news outlets. Through rigorous filtering and standardization processing, this dataset provides rich resources for natural language processing tasks such as model synthesis, requirement classification, and document structure evaluation. Application scenarios of the IGGA dataset span AI governance, workplace integration, and management strategies, aiming to address the gap in standardized policies for generative AI in industrial applications.

提供机构：

德克萨斯大学奥斯汀分校, 艾伦人工智能研究所, IBM研究院

创建时间：

2025-01-02

搜集汇总

数据集介绍

构建方式

IGGA数据集的构建过程基于对全球160家领先企业的生成式人工智能（GAI）和大语言模型（LLM）使用指南及政策声明的系统性收集。数据来源包括企业官方网站和可信的新闻渠道，确保数据的权威性和代表性。数据集涵盖了14个行业和7大洲的企业，确保了地理和行业的多样性。通过严格的筛选标准，仅纳入具有明确GAI和LLM使用指南的企业，确保了数据集的高质量和适用性。数据经过XML Schema标准化处理，并通过自然语言处理技术进行文本挖掘和计算分析，进一步提升了数据的结构化和可分析性。

特点

IGGA数据集包含了160份行业指南和政策声明，总计104,565个单词，覆盖了技术、金融、医疗、制造等多个行业。数据集的特点在于其广泛的行业和地理覆盖，能够反映不同文化和监管环境下的GAI和LLM使用策略。此外，数据集经过文本预处理，包括分词、去停用词、词干提取和词形还原，确保了文本数据的标准化和一致性。数据集还通过TF-IDF模型和KMeans聚类算法进行了主题分析，揭示了不同行业在GAI和LLM使用中的共性和差异。

使用方法

IGGA数据集适用于多种自然语言处理任务，如模型合成、需求分类、模糊性检测和文档结构评估。研究人员可以利用Python中的nltk、sklearn等库进行文本分析，包括主题建模、聚类分析和情感分析，以揭示行业指南中的主题和趋势。数据集提供了DOCX、PDF和Excel三种格式，便于不同分析需求的使用。Excel文件中的结构化数据支持按行业和地理区域进行筛选和排序，便于跨行业比较分析。此外，数据集还可作为基准数据集，用于开发和评估新的NLP算法和模型。

背景与挑战

背景概述

IGGA数据集由德克萨斯大学奥斯汀分校、艾伦人工智能研究所和IBM研究院的研究团队于2024年创建，旨在为生成式人工智能（GAI）和大语言模型（LLM）在工业和工作场所的应用提供政策与指南的标准化资源。该数据集包含来自全球160家领先企业的160份政策声明，涵盖14个行业和7大洲，总计104,565字。IGGA的创建背景源于生成式AI技术的快速发展及其在行业中的广泛应用，然而，许多组织尚未制定明确的政策来规范其使用。IGGA的推出填补了这一空白，为自然语言处理任务（如模型合成、需求分类和文档结构评估）提供了宝贵的资源，并为进一步的标注和基准测试奠定了基础。该数据集的影响力在于其全球性和行业多样性，为AI治理、工作场所整合和管理提供了跨行业的洞察。

当前挑战

IGGA数据集面临的挑战主要体现在两个方面。首先，生成式AI在行业中的应用涉及复杂的伦理、透明度和责任问题，如何确保这些政策在全球范围内的一致性和可操作性是一个关键挑战。其次，数据集的构建过程中，研究团队需要从全球范围内筛选具有代表性的企业政策，确保其覆盖不同行业和地理区域，同时保持数据的高质量和一致性。此外，文本数据的预处理和分析也面临技术挑战，如如何有效处理多语言文本、消除歧义以及提取关键信息。这些挑战不仅影响了数据集的构建效率，也对后续的NLP任务提出了更高的要求。

常用场景

经典使用场景

IGGA数据集在生成式人工智能（GAI）和大型语言模型（LLM）的研究领域中，主要用于自然语言处理（NLP）任务，如模型合成、抽象识别和文档结构评估。该数据集通过收集来自全球160家领先企业的160份行业指南和政策声明，涵盖了14个行业领域和7大洲的多样性，为研究人员提供了一个全面的资源库，用于分析和比较不同行业对GAI和LLM的治理策略。

解决学术问题

IGGA数据集解决了生成式人工智能在工业应用中的治理和伦理问题。通过提供来自不同行业和地区的政策声明，该数据集帮助研究人员识别和解决GAI和LLM在职场中的透明度、安全性和伦理挑战。此外，IGGA还支持模糊性检测、需求分类和等效需求识别等任务，为学术界提供了一个标准化的基准，推动了生成式人工智能在工业环境中的负责任应用。

衍生相关工作

IGGA数据集衍生了一系列相关研究，特别是在生成式人工智能的伦理和治理领域。例如，基于该数据集的研究工作探讨了不同行业对AI技术的接受度和应用差异，提出了跨行业的AI治理框架。此外，IGGA还被用于开发自动化工具，帮助企业检测政策中的模糊性和不一致性，从而提升AI政策的透明度和可执行性。这些衍生工作进一步推动了生成式人工智能在工业环境中的负责任应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集