five

CMoralEval|道德评估数据集|语言模型数据集

收藏
arXiv2024-08-19 更新2024-08-21 收录
道德评估
语言模型
下载链接:
https://github.com/tjunlp-lab/CMoralEval
下载链接
链接失效反馈
资源简介:
CMoralEval数据集由天津大学智能与计算学部等机构创建,旨在评估中文大型语言模型的道德表现。该数据集包含30,388条数据,来源于中国法律与伦理电视节目和一系列道德异常案例,覆盖家庭道德、社会道德、职业伦理、网络伦理和个人道德五个类别。数据集通过人工标注和AI辅助生成,确保了数据的多样性和真实性,适用于研究模型在道德决策中的表现。
提供机构:
天津大学智能与计算学部
创建时间:
2024-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMoralEval数据集的构建主要依托于中国电视节目和报纸及学术论文中的道德案例。首先,从中国法律与伦理电视节目《道德观察》中收集了833集内容,涵盖过去三年中的各种伦理情境。其次,收集了229个来自报纸和学术论文中的中国道德案例。通过对这些原始数据进行人工标注和质量审查,创建了6982个模板用于生成道德实例。然后,利用这些模板创建了30,388个数据实例,并按照预先开发的分类法将所有实例分为五个道德类别:家庭道德、社会道德、职业道德、网络道德和个人道德。
特点
CMoralEval数据集具有多样性和真实性,包含两种道德情境:明确的道德情境和道德困境情境。每个情境都包含三个选项,其中一个是明确不道德的。数据集涵盖了家庭道德、社会道德、职业道德、网络道德和个人道德五个类别,每个类别都包含来自不同数据源的实例。此外,数据集中的每个实例都包含三种选项,其中一种与道德无关,增加了复杂性。数据集还考虑了不同叙述者(多方和旁观者)对同一场景的不同视角。
使用方法
CMoralEval数据集可用于评估中文大型语言模型(LLM)的道德能力。评估方法包括零样本和少样本设置,使用lm-evaluation-harness框架进行评估。对于零样本设置,评估模型选择与伦理一致的选项的能力;对于少样本设置,随机选择五个数据实例作为示例。数据集中的每个实例都包含三个选项,用于测试模型的道德推理能力。评估指标包括选择道德选项和不道德选项的准确率。
背景与挑战
背景概述
随着大型语言模型(LLM)在自然语言理解和生成方面取得的显著进展,其输出的道德和伦理含义逐渐成为关注的焦点。CMoralEval数据集的创建旨在评估中文LLM在道德评价方面的能力,以满足社会对模型输出与价值观和规范一致性的需求。该数据集由天津大学、昆明理工大学和郑州大学的学者联合创建,收集自中国法律和伦理电视节目以及各种报纸和学术论文中的道德异常现象。CMoralEval数据集包含两个主要场景:明确的道德场景和道德困境场景,每个场景都包含来自不同数据源的实例。该数据集的创建不仅融合了传统中国文化中的道德规范,也符合当代社会规范。此外,为了提高构建和标注效率,研究者建立了一个具有AI辅助实例生成功能的平台。CMoralEval数据集的发布为评估中文LLM在道德评价方面的能力提供了一个具有挑战性的基准。
当前挑战
CMoralEval数据集面临的挑战主要包括:1)所解决的领域问题:该数据集旨在解决中文LLM在道德评价方面的能力不足的问题。2)构建过程中所遇到的挑战:数据集的构建需要考虑道德的多样性和真实性,同时要确保数据实例的准确性和可靠性。为了达到这个目标,研究者采用了多种方法,包括人工标注、AI辅助实例生成和质量控制等。此外,数据集的构建还面临着道德分类和道德原则的确定问题,以及如何将传统中国文化中的道德规范与当代社会规范相结合的挑战。
常用场景
经典使用场景
CMoralEval数据集主要用于评估中文大型语言模型(LLM)在道德相关情境下的响应。该数据集包含明确的道德场景和道德困境场景,每个场景都有三个选项,其中一个选项在道德上明确是错误的,而另一个选项则具有合理的道德错误性。这样的设计使得LLM在面对道德选择时,需要在多个选项中找到最符合道德规范的那个。通过对LLM在CMoralEval上的表现进行评估,研究人员可以了解LLM在处理道德问题时的能力和局限性。
实际应用
CMoralEval在实际应用中可以用于提高中文LLM的道德推理能力。通过对LLM在CMoralEval上的表现进行评估,可以了解LLM在处理道德问题时的不足,并针对性地进行改进。此外,CMoralEval还可以用于开发具有道德推理能力的中文LLM,使其在处理道德问题时更加准确和可靠。
衍生相关工作
CMoralEval的提出也促进了相关领域的研究。例如,基于CMoralEval,研究人员可以进一步研究LLM在处理道德问题时的推理过程,以及如何通过改进LLM的训练方法来提高其道德推理能力。此外,CMoralEval还可以用于开发新的道德评估数据集,以更全面地评估LLM在道德问题上的表现。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录