OALL/details_Qwen__Qwen1.5-110B

Name: OALL/details_Qwen__Qwen1.5-110B
Creator: OALL
Published: 2024-06-06 14:49:23
License: 暂无描述

Hugging Face2024-06-06 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/OALL/details_Qwen__Qwen1.5-110B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型Qwen/Qwen1.5-110B的评估运行期间自动创建的。数据集由136个配置组成，每个配置对应一个评估任务。数据集是从1次运行中创建的，每次运行都作为每个配置中的一个特定分割存储，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，还有一个名为results的配置，存储了所有运行的聚合结果。README还提供了一个示例，展示了如何使用`datasets`库中的`load_dataset`函数加载运行中的详细信息。还包括了2024-06-06T14:46:34.204186运行的最新结果，显示了不同任务的各种准确率指标。

提供机构：

OALL

原始信息汇总

数据集概述

数据集名称

pretty_name: Evaluation run of Qwen/Qwen1.5-110B

数据集描述

dataset_summary: 该数据集是在评估模型Qwen/Qwen1.5-110B过程中自动创建的。数据集包含136个配置，每个配置对应一个评估任务。数据集由1次运行创建，每次运行作为一个特定的分割，分割名称使用运行的时间戳。"train"分割始终指向最新的结果。此外，还有一个名为"results"的配置，存储了运行的所有聚合结果。

数据集加载示例

python from datasets import load_dataset data = load_dataset("OALL/details_Qwen__Qwen1.5-110B", "lighteval_xstory_cloze_ar_0", split="train")

数据集详细信息

评估结果

数据集提供了详细的评估结果，包括但不限于：
- 准确率（acc_norm）
- 准确率标准误差（acc_norm_stderr）
- 总准确率（acc）
- 总准确率标准误差（acc_stderr）

任务分类

数据集涵盖了多个社区和任务的评估，如：
- 社区|acva:Algeria|0
- 社区|acva:Ancient_Egypt|0
- 社区|acva:Arab_Empire|0
- 社区|acva:Arabic_Architecture|0
- 社区|acva:Arabic_Art|0
- 社区|acva:Arabic_Astronomy|0
- 社区|acva:Arabic_Calligraphy|0
- 社区|acva:Arabic_Ceremony|0
- 社区|acva:Arabic_Clothing|0
- 社区|acva:Arabic_Culture|0
- 社区|acva:Arabic_Food|0
- 社区|acva:Arabic_Funeral|0
- 社区|acva:Arabic_Geography|0
- 社区|acva:Arabic_History|0
- 社区|acva:Arabic_Language_Origin|0
- 社区|acva:Arabic_Literature|0
- 社区|acva:Arabic_Math|0
- 社区|acva:Arabic_Medicine|0
- 社区|acva:Arabic_Music|0
- 社区|acva:Arabic_Ornament|0
- 社区|acva:Arabic_Philosophy|0
- 社区|acva:Arabic_Physics_and_Chemistry|0
- 社区|acva:Arabic_Wedding|0
- 社区|acva:Bahrain|0
- 社区|acva:Comoros|0
- 社区|acva:Egypt_modern|0
- 社区|acva:InfluenceFromAncientEgypt|0
- 社区|acva:InfluenceFromByzantium|0
- 社区|acva:InfluenceFromChina|0
- 社区|acva:InfluenceFromGreece|0
- 社区|acva:InfluenceFromIslam|0
- 社区|acva:InfluenceFromPersia|0
- 社区|acva:InfluenceFromRome|0
- 社区|acva:Iraq|0
- 社区|acva:Islam_Education|0
- 社区|acva:Islam_branches_and_schools|0
- 社区|acva:Islamic_law_system|0
- 社区|acva:Jordan|0
- 社区|acva:Kuwait|0
- 社区|acva:Lebanon|0
- 社区|acva:Libya|0
- 社区|acva:Mauritania|0
- 社区|acva:Mesopotamia_civilization|0
- 社区|acva:Morocco|0
- 社区|acva:Oman|0
- 社区|acva:Palestine|0
- 社区|acva:Qatar|0
- 社区|acva:Saudi_Arabia|0
- 社区|acva:Somalia|0
- 社区|acva:Sudan|0
- 社区|acva:Syria|0
- 社区|acva:Tunisia|0
- 社区|acva:United_Arab_Emirates|0
- 社区|acva:Yemen|0
- 社区|acva:communication|0
- 社区|acva:computer_and_phone|0
- 社区|acva:daily_life|0
- 社区|acva:entertainment|0
- 社区|alghafa:mcq_exams_test_ar|0
- 社区|alghafa:meta_ar_dialects|0
- 社区|alghafa:meta_ar_msa|0
- 社区|alghafa:multiple_choice_facts_truefalse_balanced_task|0
- 社区|alghafa:multiple_choice_grounded_statement_soqal_task|0
- 社区|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|0
- 社区|alghafa:multiple_choice_rating_sentiment_no_neutral_task|0
- 社区|alghafa:multiple_choice_rating_sentiment_task|0
- 社区|alghafa:multiple_choice_sentiment_task|0
- 社区|arabic_exams|0
- 社区|arabic_mmlu:abstract_algebra|0
- 社区|arabic_mmlu:anatomy|0
- 社区|arabic_mmlu:astronomy|0
- 社区|arabic_mmlu:business_ethics|0
- 社区|arabic_mmlu:clinical_knowledge|0
- 社区|arabic_mmlu:college_biology|0
- 社区|arabic_mmlu:college_chemistry|0
- 社区|arabic_mmlu:college_computer_science|0
- 社区|arabic_mmlu:college_mathematics|0
- 社区|arabic_mmlu:college_medicine|0
- 社区|arabic_mmlu:college_physics|0
- 社区|arabic_mmlu:computer_security|0
- 社区|arabic_mmlu:conceptual_physics|0
- 社区|arabic_mmlu:econometrics|0
- 社区|arabic_mmlu:electrical_engineering|0
- 社区|arabic_mmlu:elementary_mathematics|0
- 社区|arabic_mmlu:formal_logic|0
- 社区|arabic_mmlu:global_facts|0
- 社区|arabic_mmlu:high_school_biology|0
- 社区|arabic_mmlu:high_school_chemistry|0
- 社区|arabic_mmlu:high_school_computer_science|0
- 社区|arabic_mmlu:high_school_european_history|0
- 社区|arabic_mmlu:high_school_geography|0
- 社区|arabic_mmlu:high_school_government_and_politics|0
- 社区|arabic_mmlu:high_school_macroeconomics|0
- 社区|arabic_mmlu:high_school_mathematics|0
- 社区|arabic_mmlu:high_school_microeconomics|0
- 社区|arabic_mmlu:high_school_physics|0
- 社区|arabic_mmlu:high_school_psychology|0
- 社区|arabic_mmlu:high_school_statistics|0
- 社区|arabic_mmlu:high_school_us_history|0
- 社区|arabic_mmlu:high_school_world_history|0
- 社区|arabic_mmlu:human_aging|0
- 社区|arabic_mmlu:human_sexuality|0
- 社区|arabic_mmlu:international_law|0
- 社区|arabic_mmlu:jurisprudence|0
- 社区|arabic_mmlu:logical_fallacies|0
- 社区|arabic_mmlu:machine_learning|0
- 社区|arabic_mmlu:management|0
- 社区|arabic_mmlu:marketing|0
- 社区|arabic_mmlu:medical_genetics|0
- 社区|arabic_mmlu:miscellaneous|0
- 社区|arabic_mmlu:moral_disputes|0
- 社区|arabic_mmlu:moral_scenarios|0
- 社区|arabic_mmlu:nutrition|0
- 社区|arabic_mmlu:philosophy|0
- 社区|arabic_mmlu:prehistory|0
- 社区|arabic_mmlu:professional_accounting|0
- 社区|arabic_mmlu:professional_law|0
- 社区|arabic_mmlu:professional_medicine|0
- 社区|arabic_mmlu:psychology|0
- 社区|arabic_mmlu:statistics|0
- 社区|arabic_mmlu:world_religions|0

数据集使用

数据集可用于评估模型在不同任务上的性能，通过加载特定的分割来获取相应的评估结果。

5,000+

优质数据集

54 个

任务类型

进入经典数据集