kz919/mmlu-auxiliary-train-auto-labelled
收藏数据集描述
数据集概述
该数据集名为“MMLU Auxiliary Trained Set Labelled by e5-mistral-7b-instruct”,包含99,842个示例,涵盖多个学科。每个实例包括一个问题、多个选择题选项、一个学科类别和一个答案。该数据集的独特之处在于每个问题都有一个由零样本分类器生成的任务标签,该分类器基于intfloat/e5-mistral-7b-instruct模型,并在大规模多任务语言理解(MMLU)的辅助集上进行训练。
支持的任务和排行榜
该数据集支持文本生成任务。它特别适用于使用零样本分类器生成的任务标签在广泛学科上训练和评估模型。
语言
该数据集主要为英语。
数据集结构
数据实例
该数据集中的典型数据实例包括:
question:一个文本问题或提示。subject:问题的学科类别。choices:一组可能的答案。answer:正确答案在选项中的索引。task:零样本分类器分配的任务标签。
数据字段
question:字符串subject:字符串choices:字符串序列answer:int64task:字符串
数据分割
- 训练集:99,842个示例
数据集创建
策划理由
该数据集的策划旨在增强语言模型在理解和生成跨广泛学科的响应方面的多样性和范围。使用零样本分类器进行任务标签的引入为分类和理解文本数据提供了一种新颖的方法。
源数据
数据来源于MMLU的辅助训练集,并经过处理以包括由intfloat/e5-mistral-7b-instruct模型生成的任务标签。
注释
注释过程
任务标签由零样本分类器模型自动生成,特别是intfloat/e5-mistral-7b-instruct。
注释者
没有人工注释者;整个过程完全由零样本分类器自动完成。
个人和敏感信息
该数据集不包含个人或敏感信息,因为它专注于一般知识问题和学科。
使用数据的考虑
数据集的社会影响
该数据集有助于开发更多功能和知识丰富的语言模型,可能影响教育、研究和AI开发等多个领域。
偏见的讨论
鉴于任务标签生成的自动化性质和多样化的学科内容,偏见可能很小,但仍可能基于零样本分类器的底层训练数据而存在。
其他已知限制
主要限制是依赖零样本分类器对任务标签的准确性,这可能并不总是与人类判断一致。
附加信息
数据集策展人
该数据集由参与mmlu开发的团队策展。
许可信息
该数据集在Apache-2.0许可下提供。
引用信息
@misc{mmlu_auxiliary_trained_set, title = {{MMLU Auxiliary Trained Set Labelled by e5-mistral-7b-instruct}}, author = {Kaizhao Liang}, year = {2024}, howpublished = {https://huggingface.co/datasets/kz919/mmlu-auxiliary-train-e5-mistral-7b-instruct}, note = {Accessed: Date of Access}, description = {A dataset of 99,842 examples across various subjects, each including a question, multiple choice options, a subject category, an answer, and a task label generated by a zero-shot classifier constructed from the intfloat/e5-mistral-7b-instruct model.}, license = {Apache-2.0} }
联系信息
可视化
-
按类别计数 <img src="https://huggingface.co/datasets/kz919/mmlu-auxiliary-train-e5-mistral-7b-instruct/resolve/main/per_category_distribution.png">
-
按超级类别计数 <img src="https://huggingface.co/datasets/kz919/mmlu-auxiliary-train-e5-mistral-7b-instruct/resolve/main/super_category_distribution.png">




