five

AI Ethics Dataset|人工智能伦理数据集|数据集数据集

收藏
arXiv2021-09-21 更新2024-06-21 收录
人工智能伦理
数据集
下载链接:
http://arXiv.org
下载链接
链接失效反馈
资源简介:
AI Ethics Dataset是由里约格兰德联邦大学的研究团队创建,旨在通过AI技术衡量人工智能领域的伦理问题。该数据集包含1425篇从arXiv平台筛选出的论文,主要涉及AI伦理相关内容。数据集的创建过程包括手动筛选和专家标注,确保了数据的质量和相关性。该数据集主要用于训练AI模型,以识别和分类与AI伦理相关的研究论文,进而帮助决策者、研究人员和公众更好地理解和评估AI技术的社会影响。
提供机构:
里约格兰德联邦大学
创建时间:
2021-07-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
AI Ethics Dataset的构建基于从arXiv.org收集的238,806篇论文,这些论文涵盖了从1989年至2019年的内容。首先,研究人员筛选出与人工智能(AI)相关的论文,然后进一步筛选出与伦理相关的论文。在这个基础上,他们手动注释和整理了200篇论文,并根据标题和摘要内容将这些论文标注为与AI相关或与伦理相关。为了增加数据集中论文的数量,研究人员使用了主动学习技术,通过机器标注来扩充数据集。他们测试了多种机器学习模型,最终选择了随机森林分类器进行训练。这个分类器在4折交叉验证步骤中获得了平均ROC-AUC分数为0.98,在所有200个样本上进行训练时,错误地将两篇伦理相关的论文标注为非伦理相关。此外,研究人员还通过比较先前研究中使用的基于关键词的方法,进一步评估了他们提出的方法。
特点
AI Ethics Dataset的特点在于它提供了一个手动整理的论文数据集,这些论文内容与AI伦理相关。这个数据集包含了290个手动标注的示例和1136个通过机器学习模型标注的示例。此外,数据集还包括了一个基于AI的AI-Index,该指数使用训练好的模型来分析论文的标题和摘要,以确定它们是否与伦理相关。该数据集的特点还包括其涵盖了广泛的主题,包括但不限于公平性、问责制、可解释性和算法偏差。此外,数据集还提供了关于不同时间点和不同会议或期刊中伦理相关论文数量的分析。
使用方法
使用AI Ethics Dataset的方法包括首先加载数据集,然后使用训练好的模型对论文的标题和摘要进行分类,以确定它们是否与伦理相关。此外,还可以使用数据集中的AI-Index来分析不同时间点和不同会议或期刊中伦理相关论文的数量。为了使用这个数据集,用户需要具备基本的编程技能,熟悉机器学习和自然语言处理。此外,用户还需要了解数据集的结构和内容,以便有效地使用它来支持他们的研究。
背景与挑战
背景概述
在人工智能领域,随着技术的快速发展,对AI伦理的考量变得越来越重要。Pedro H.C. Avelar等人于2021年提出了一种使用AI技术来衡量AI伦理的方法和数据集构建,旨在帮助决策者更好地理解AI技术的社会影响。他们创建了一个手动整理的论文数据集,用于训练一个模型来分类与伦理问题相关的出版物。这个数据集通过从arXiv.org收集的238,806篇论文中筛选出与AI伦理相关的1,425篇论文,并由专家手动标注和整理了其中的200篇论文。通过使用主动学习和简单的模型,如随机森林,他们成功地创建了一个能够识别AI伦理相关论文的工具。这个数据集对于发展可信和公平的AI工具和技术具有重要意义,有助于决策者、教育者和公众更好地理解AI技术的伦理影响。
当前挑战
尽管AI伦理数据集的创建为AI伦理研究提供了重要工具,但仍面临一些挑战。首先,如何将伦理原则嵌入到AI系统中是一个关键问题,需要在AI智能体系统的设计和开发中寻求平衡。其次,在构建数据集的过程中,如何确保数据的准确性和代表性是一个挑战,尤其是在使用主动学习和机器学习模型时。此外,AI伦理数据集的创建和使用也需要考虑到伦理问题,例如,如何避免算法偏见和数据偏见。最后,AI伦理数据集的创建还需要进一步的研究和发展,以提高其准确性和可靠性,并使其能够涵盖更广泛的AI伦理问题。
常用场景
经典使用场景
AI Ethics Dataset is a pivotal resource for the AI community, particularly in the realm of ethics research. Its primary use lies in training AI models to classify research papers based on their relevance to ethical issues, as inferred from their titles and abstracts. This enables ethicists and other researchers to efficiently sift through the burgeoning volume of AI and computer science papers to identify those pertinent to their studies, thereby fostering a more targeted and focused approach to ethical considerations in AI research.
实际应用
The practical applications of the AI Ethics Dataset are far-reaching. It serves as a tool for policy-makers, educators, and the general public to gain insights into the ethical dimensions of AI research and development. For instance, policy-makers can use the dataset to inform the creation of ethical guidelines and regulations for AI technologies. Educators can leverage it to incorporate ethical discussions into AI curricula, ensuring that future AI professionals are well-versed in the ethical implications of their work. Moreover, the general public can benefit from the dataset by gaining a clearer understanding of the ethical considerations involved in AI, fostering a more informed and engaged citizenry in the digital age.
衍生相关工作
The AI Ethics Dataset has inspired a series of related works that delve deeper into the measurement and analysis of ethics in AI. Researchers have built upon the dataset to develop more sophisticated AI models for classifying ethical content in research papers, employing advanced NLP techniques to improve accuracy and reliability. Additionally, the dataset has been used to construct AI-based indexes that track the impact of ethics in AI research over time, providing valuable insights into trends and developments in the field. These derivative works not only enhance our understanding of ethics in AI but also contribute to the development of more robust and effective tools for ethical analysis and decision-making in AI research and development.
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

Religious Composition by Country

该数据集包含了全球各个国家的宗教构成信息,包括主要宗教的信徒数量和比例。数据涵盖了基督教、伊斯兰教、佛教、印度教等多种宗教。

www.pewforum.org 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录