five

SMILE|多模态对话系统数据集|人工智能模型评估数据集

收藏
huggingface2025-03-09 更新2025-03-10 收录
多模态对话系统
人工智能模型评估
下载链接:
https://huggingface.co/datasets/Chakita/SMILE
下载链接
链接失效反馈
资源简介:
SMILE数据集是一个合成的多轮对话数据集,包含人类与AI助手之间围绕文本和图片的对话。该数据集旨在通过包含多样化的图片(来自Fairface、Meme Images和Anime Face数据集)来提高多模态模型在帮助性、诚实性和无害性三个指标上的表现,并确保模型在识别和评论图片时遵循必要的安全和隐私限制。
创建时间:
2025-02-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
SMILE数据集的构建采用了一种合成的方法,通过使用Gemini 1.5 flash生成多轮对话。数据集从Fairface balanced subset、Meme Images以及Anime Face dataset三个不同的数据源中抽取图片,以此为基础生成人类与AI之间的对话。这些图像被选取用来教育模型如何处理涉及种族、性别偏见、知名人物识别、有毒或有问题表情包的问题。在生成对话的过程中,人类一方被特别提示提出具有挑战性的问题,而AI一方则努力遵循在提示中给出的政策指导原则。生成的数据随后根据3H指标(有益、无害、诚实)进行评估。
使用方法
使用SMILE数据集时,用户可以访问一个完整的端到端管道,该管道用于在自定义输入图像数据集上生成自定义数据集。该管道提供了一个方便的工具,用户可以依据自己的需求生成符合特定标准的数据集。此外,数据集的README文件中提供了详细的生成和评估管道的链接,用户可以利用这些资源来更好地理解和运用数据集。
背景与挑战
背景概述
SMILE(Synthetic Multi-turn Interactions for Learning Ethics)数据集,由Baisakhi Sarkar、Chakita Muttaraju和Xinyi (Cindy) Lyu等研究人员创建于近期,旨在通过构建多轮的文本与图像对话,提升多模态模型在3H(有帮助、诚实、无害)方面的性能。该数据集特别关注于实施必要的安全和隐私限制,如不通过给定图像识别个人。SMILE数据集的构建,不仅为多模态交互伦理学习提供了有力支撑,而且对于促进相关领域的研究与实践具有显著影响。
当前挑战
SMILE数据集在构建过程中面临的主要挑战包括:如何在保证模型不识别特定人物的同时,处理涉及种族和性别偏见等敏感问题;如何在尊重隐私的前提下,拒绝评论或解释可能具有攻击性或问题的梗图;以及如何在虚构环境中处理与偏见相关的问题。此外,数据集生成过程中还需克服如何制定有效的策略指导,以确保AI助手在对话中保持有帮助、诚实、无害的特性,同时评价生成的数据是否符合这些标准。
常用场景
经典使用场景
SMILE数据集作为一款专注于提升多模态模型在3H(有益、诚实、无害)准则上性能的合成数据集,其经典的使用场景主要在于训练AI模型以处理涉及伦理问题的多轮对话。该数据集结合文本与图像,旨在使模型能够识别并妥善回应可能存在的种族、性别偏见问题,以及避免识别知名人物和不当评论具有争议性的梗图。
解决学术问题
该数据集解决了学术研究中如何构建符合伦理和安全标准的多模态对话系统的问题。通过引入涉及伦理和安全限制的场景,如不根据图像识别个人,SMILE数据集为研究如何提升AI在处理敏感信息时的表现提供了宝贵的实验资源,对于促进AI伦理学的发展具有重要意义。
实际应用
在实际应用中,SMILE数据集可用于改进聊天机器人的对话能力,使其在处理用户查询时更加准确、安全且符合伦理标准。例如,它可以用于训练社交媒体平台上的自动回复系统,使其能够识别并避免传播具有潜在伤害性的内容。
数据集最近研究
最新研究方向
SMILE数据集作为一款合成数据集,专注于多轮对话中图像与文本的交互,其研究方向的焦点在于提升多模态模型在3H(有益、诚实、无害)方面的性能。近期研究着重于如何在AI模型中实施必要的安全和隐私限制,例如防止从给定图像中识别个人。该数据集的生成采用了Gemini 1.5 flash,并整合了Fairface、Meme Images以及Anime Face等多个图像数据集,旨在教育模型处理有关种族、性别偏见以及避免评论或解释有毒或有问题表情包的问题。当前研究不仅推动了AI在多模态交互中的伦理学习,而且对于实现更具包容性和安全性的AI系统具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

Set5

Set5数据集是一个包含5张图像的图像超分辨率测试数据集,包括'baby', 'bird', 'butterfly', 'head', 'woman',通常用于评估图像超分辨率模型的性能。

huggingface 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录