joey234/mmlu-econometrics

Name: joey234/mmlu-econometrics
Creator: joey234
Published: 2023-08-23 04:34:06
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-econometrics

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: fewshot_context_neg dtype: string splits: - name: dev num_bytes: 6197 num_examples: 5 - name: test num_bytes: 513811 num_examples: 114 download_size: 92259 dataset_size: 520008 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* --- # Dataset Card for "mmlu-econometrics" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 名称：question（问题），数据类型：字符串（string） - 名称：choices（选项），数据类型：字符串序列（sequence<string>） - 名称：answer（答案），数据类型：类别标签（class_label），其类别名称映射为：'0'对应A，'1'对应B，'2'对应C，'3'对应D - 名称：negate_openai_prompt（否定式OpenAI提示），为结构体（struct）类型，包含两个子字段： - 名称：content（内容），数据类型：字符串 - 名称：role（角色），数据类型：字符串 - 名称：neg_question（否定化问题），数据类型：字符串 - 名称：fewshot_context（少样本上下文），数据类型：字符串 - 名称：fewshot_context_neg（否定化少样本上下文），数据类型：字符串数据划分： - 划分名称：dev（开发集），字节大小：6197，样本数量：5 - 划分名称：test（测试集），字节大小：513811，样本数量：114 下载大小：92259，数据集总大小：520008 配置项： - 配置名称：default（默认配置），数据文件： - 对应dev划分：data/dev-* - 对应test划分：data/test-* --- # 「mmlu-econometrics」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集特征

question: 数据类型为字符串。
choices: 数据类型为字符串序列。
answer: 数据类型为分类标签，具体标签为：
- 0: A
- 1: B
- 2: C
- 3: D
negate_openai_prompt: 结构化数据，包含：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
neg_question: 数据类型为字符串。
fewshot_context: 数据类型为字符串。
fewshot_context_neg: 数据类型为字符串。

数据集分割

dev:
- 数据大小: 6197 字节
- 示例数量: 5
test:
- 数据大小: 513811 字节
- 示例数量: 114

数据集大小

下载大小: 92259 字节
数据集总大小: 520008 字节

配置文件

config_name: default
data_files:
- dev: 路径为 data/dev-*
- test: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

该数据集joey234/mmlu-econometrics的构建，采用了以经济学为主题的题目，每个问题包含一个问题和四个选项，并标注了正确答案。数据集分为训练和测试两部分，其中包含问题文本、否定提示、少量示例上下文等特征，构建方式旨在为多模态最小语言模型提供评估标准。

特点

数据集显著特征在于其专注于经济学领域，包含的问题和答案形式模拟了真实考试环境，且数据结构中包含了否定提示和少量示例上下文，这不仅丰富了数据集的多样性，也为模型训练提供了更多维度信息。数据集规模适中，易于处理和分析。

使用方法

使用该数据集时，用户可以依据数据文件的结构，对dev和test两部分分别进行加载。数据集提供了清晰的字段定义，如问题、选项、答案等，方便用户进行数据预处理和模型训练。用户可根据具体需求，利用这些字段进行模型的评估和优化。

背景与挑战

背景概述

mmlu-econometrics数据集，系由joey234贡献至HuggingFace平台，旨在为经济计量学领域提供一种评估多模态机器学习理解能力的方法。该数据集的创建，源于对经济计量学文献中复杂数学概念和统计方法的理解与掌握的需求，其涵盖了各类经济计量问题，并提供了问题、选项、答案等字段，以适应不同的机器学习模型训练和评估。自推出以来，该数据集已成为检验机器学习在经济计量学领域应用能力的重要基准，对推动相关领域的研究与实践产生了显著影响。

当前挑战

该数据集所面临的挑战主要涉及两个方面：一是领域问题的挑战，即如何使机器学习模型准确理解和解决经济计量学中的复杂问题；二是构建过程中的挑战，包括数据集的覆盖范围、问题设计的合理性和答案标注的准确性。此外，由于经济计量学的特殊性和专业性，数据集的构建和维护需要领域专家的深入参与，这对数据集的质量和实用性提出了更高的要求。

常用场景

经典使用场景

在经济学研究与分析的领域，该数据集joey234/mmlu-econometrics以其精心设计的题目和选项，成为评估经济模型预测能力的重要工具。其通过模拟现实世界中的经济学问题，使得研究者能够利用该数据集进行机器学习模型的微调与评估，从而确保模型在处理实际经济问题时具备较高的准确性和可靠性。

衍生相关工作

基于joey234/mmlu-econometrics数据集的研究成果，已经衍生出一系列相关的工作，包括经济模型预测算法的改进、经济学问题的机器学习解决方案、以及跨学科的数据分析方法的探索。这些研究进一步拓展了经济学与计算机科学结合的边界，为经济学科的数字化转型提供了强有力的支持。

数据集最近研究