five

NORMAD|语言模型评估数据集|文化适应性数据集

收藏
arXiv2024-05-24 更新2024-06-21 收录
语言模型评估
文化适应性
下载链接:
https://github.com/Akhila-Yerukola/NormAd
下载链接
链接失效反馈
资源简介:
NORMAD是由卡内基梅隆大学语言技术研究所创建的数据集,包含2600个故事,旨在评估大型语言模型在不同文化背景下的适应性。数据集涵盖75个国家的社会和文化规范,通过日常场景的故事来测试模型对文化差异的理解和适应能力。创建过程中,研究团队利用文化地图和专家验证确保数据的准确性和多样性。该数据集的应用领域主要集中在提高语言模型在全球范围内的文化适应性和公平性,解决模型在不同文化环境中可能出现的偏见和误解问题。
提供机构:
卡内基梅隆大学语言技术研究所
创建时间:
2024-04-19
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GEO (Gene Expression Omnibus)

GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.

OPEN DATA NETWORK 收录

ActivityNet Captions

The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.

Papers with Code 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

China Health and Retirement Longitudinal Study

中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。

charls.pku.edu.cn 收录