Global-MMLU-Lite|多语言评估数据集|文化敏感性评估数据集
收藏数据集概述
数据集名称
Global-MMLU-Lite
数据集简介
Global-MMLU-Lite 是一个多语言评估数据集,涵盖15种语言,包括英语。它是原始 Global-MMLU 数据集 的精简版本。该数据集包含每种语言的200个文化敏感(CS)和200个文化无关(CA)样本。
数据集特点
- 语言数量: 15种语言
- 样本类型: 每种语言包含200个文化敏感(CS)和200个文化无关(CA)样本
- 数据来源: 由 Cohere For AI Community 的专业标注者和贡献者精心策划
- 许可证: Apache 2.0
数据集配置
数据集包含以下语言配置:
- ar (阿拉伯语)
- bn (孟加拉语)
- de (德语)
- en (英语)
- es (西班牙语)
- fr (法语)
- hi (印地语)
- id (印度尼西亚语)
- it (意大利语)
- ja (日语)
- ko (韩语)
- pt (葡萄牙语)
- sw (斯瓦希里语)
- yo (约鲁巴语)
- zh (中文)
数据字段
每个数据字段在所有拆分中都是相同的,具体描述如下:
sample_id
: 问题的唯一标识符subject
: 问题所属的主要主题subject_category
: 主题所属的高级类别(如STEM、人文学科、社会科学、医学、商业、其他)question
: 从MMLU翻译过来的问题option_a
: 可能的选项之一option_b
: 可能的选项之一option_c
: 可能的选项之一option_d
: 可能的选项之一answer
: 正确答案(A/B/C/D)required_knowledge
: 标注者投票决定回答问题所需的知识(可能的值包括:“cultural”, “regional”, “dialect” 或 “none”)time_sensitive
: 标注者投票指示问题的答案是否与时间相关(可能的值包括:Yes/No)reference
: 标注问题中包含文化/地区/方言引用的部分culture
: 标注问题所属的文化region
: 问题相关的地理区域country
: 问题涉及的具体国家cultural_sensitivity_label
: 标注者投票决定问题是否具有文化敏感性(CS)或文化无关性(CA)is_annotated
: 指示样本是否包含文化偏差研究的标注
数据拆分
数据集包含以下拆分:
test
: 6,000个实例,覆盖15种语言dev
: 4,275个实例,覆盖15种语言
数据实例
以下是 test
集中的一个示例:
json
{
sample_id: astronomy/test/58,
subject: astronomy,
subject_category: STEM,
question: When traveling north from the United States into Canada you’ll see the North Star (Polaris) getting _________.,
option_a: Brighter,
option_b: Dimmer,
option_c: Higher in the sky,
option_d: Lower in the sky,
answer: C,
required_knowledge: "[regional, regional, regional, regional]",
time_sensitive: "[No, No, No, No]",
reference: "[{end: 55, label: Geographic, score: None, start: 5}, {end: 43, label: Geographic, score: None, start: 30}, {end: 55, label: Geographic, score: None, start: 5}]"
}

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录