five

Moral Foundations Reddit Corpus (MFRC)

收藏
arXiv2025-10-21 更新2024-07-17 收录
下载链接:
https://huggingface.co/datasets/...
下载链接
链接失效反馈
官方服务:
资源简介:
Moral Foundations Reddit Corpus是由南加州大学联合多机构构建的大规模道德情感标注语料库,包含16,123条从12个道德相关子论坛精选的英文Reddit评论。该数据集基于修订版道德基础理论框架,由至少三名训练有素的标注者对8类道德情感进行人工标注,涵盖关怀、平等、比例性等维度。数据采集通过半监督方法进行道德内容增强采样,确保道德表达的多样性。该资源主要应用于自然语言处理领域的道德情感分类研究,为探究网络道德话语模式及人工智能道德对齐提供重要基准。

Moral Foundations Reddit Corpus is a large-scale moral emotion annotated corpus jointly constructed by the University of Southern California and multiple institutions. It contains 16,123 English Reddit comments selected from 12 morality-related subreddits. Based on the revised Moral Foundations Theory framework, this corpus was manually annotated for 8 categories of moral emotions by at least three well-trained annotators, covering dimensions such as care, equality, and proportionality. Data collection adopted a semi-supervised method for enhanced sampling of moral content to ensure the diversity of moral expressions. This resource is primarily used for moral emotion classification research in the field of natural language processing, serving as an important benchmark for exploring online moral discourse patterns and AI moral alignment.
提供机构:
南加州大学
创建时间:
2022-08-11
搜集汇总
数据集介绍
main_image_url
构建方式
非洲数据中心水效率数据集的构建基于对非洲41个国家在五个不同气候区域的数据中心水使用效率(WUE)的评估。该数据集通过整合非洲各国的天气数据和电力生成数据,计算了数据中心的直接和间接水消耗。具体而言,数据集利用了来自WeatherAPI的每小时湿球温度、湿度和降水数据,以及来自OurWorldInData的能源燃料混合数据。此外,通过参考文献[19]中的水消耗数据,计算了每种能源燃料类型的平均水强度,从而构建了全面的水使用效率模型。
特点
非洲数据中心水效率数据集的显著特点在于其针对非洲特定气候和能源结构的定制化分析。该数据集不仅涵盖了41个非洲国家的数据,还根据五个气候区域进行了细分,提供了每小时的水使用效率估计。此外,数据集还特别关注了大型语言模型(如Llama-3-70B和GPT-4)在非洲国家的水消耗情况,揭示了不同气候和能源组合对水消耗的显著影响。
使用方法
非洲数据中心水效率数据集可用于评估和优化非洲数据中心的水资源管理策略。研究者和政策制定者可以利用该数据集分析不同气候和能源条件下数据中心的水消耗模式,从而制定更加可持续的水资源利用方案。此外,数据集还可用于模拟和预测AI模型在非洲不同国家的运行成本,帮助企业在部署AI服务时做出更加环保和经济的决策。
背景与挑战
背景概述
随着人工智能(AI)和数字服务的迅猛发展,数据中心的需求显著增加。尽管非洲的数据中心基础设施历史不足,但该地区蓬勃发展的数字经济已导致数据中心建设激增,预计到2026年市场增长率将达到50%。然而,数据中心因其巨大的能源消耗和水资源消耗而备受关注,即使在发达国家如美国,这一问题也引起了广泛关注。非洲许多国家正面临长期干旱和水资源短缺的挑战,因此评估非洲数据中心的水资源消耗对于支持数据中心行业的健康发展至关重要。非洲数据中心水效率数据集应运而生,由Noah Shumba等研究人员于2024年创建,旨在结合国家层面的天气和电力生成数据,评估非洲41个国家数据中心的水资源使用效率。
当前挑战
非洲数据中心水效率数据集面临的挑战包括:首先,数据中心的水资源消耗问题在非洲尤为突出,因为该地区许多国家面临水资源短缺和干旱。其次,构建该数据集过程中,研究人员需整合非洲各国的天气数据和电力生成数据,这一过程涉及数据获取和处理的复杂性。此外,由于非洲各国的能源组合差异较大,准确评估水资源使用效率需要考虑不同能源类型的水资源强度。最后,尽管该数据集提供了对非洲数据中心水资源消耗的初步估计,但实际应用中仍需进一步验证和优化,以确保数据的准确性和实用性。
常用场景
经典使用场景
非洲数据中心水效率数据集的经典使用场景在于评估和优化非洲41个国家数据中心的水资源利用效率。通过整合各国的天气数据和电力生成数据,该数据集能够提供每小时的水使用效率(WUE)估计,从而帮助研究人员和数据中心管理者了解和改进水资源管理策略。此外,数据集还用于评估大型语言模型(如Llama-3-70B和GPT-4)在不同非洲国家的推理任务中的水消耗,为AI模型的可持续部署提供科学依据。
解决学术问题
该数据集解决了非洲数据中心水资源管理中的关键学术问题,填补了非洲地区在此领域的研究空白。通过提供详细的水使用效率数据,它帮助研究人员理解不同气候区域和能源组合对水资源消耗的影响,从而推动数据中心水资源管理策略的创新。此外,数据集还揭示了AI模型在非洲不同国家的实际水消耗情况,为全球AI模型的可持续性研究提供了重要参考。
衍生相关工作
基于非洲数据中心水效率数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集开发了新的水资源管理模型,以预测和优化数据中心的水消耗。此外,数据集还激发了对AI模型在全球不同气候条件下水消耗的深入研究,推动了AI模型设计中的可持续性考量。这些衍生工作不仅丰富了数据中心水资源管理的理论基础,也为实际应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作