OALL/details_Qwen__Qwen1.5-110B
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OALL/details_Qwen__Qwen1.5-110B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型Qwen/Qwen1.5-110B的评估运行期间自动创建的。数据集由136个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都作为每个配置中的一个特定分割存储,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果。README还提供了一个示例,展示了如何使用`datasets`库中的`load_dataset`函数加载运行中的详细信息。还包括了2024-06-06T14:46:34.204186运行的最新结果,显示了不同任务的各种准确率指标。
该数据集是在模型Qwen/Qwen1.5-110B的评估运行期间自动创建的。数据集由136个配置组成,每个配置对应一个评估任务。数据集是从1次运行中创建的,每次运行都作为每个配置中的一个特定分割存储,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果。README还提供了一个示例,展示了如何使用`datasets`库中的`load_dataset`函数加载运行中的详细信息。还包括了2024-06-06T14:46:34.204186运行的最新结果,显示了不同任务的各种准确率指标。
提供机构:
OALL
原始信息汇总
数据集概述
数据集名称
- pretty_name: Evaluation run of Qwen/Qwen1.5-110B
数据集描述
- dataset_summary: 该数据集是在评估模型Qwen/Qwen1.5-110B过程中自动创建的。数据集包含136个配置,每个配置对应一个评估任务。数据集由1次运行创建,每次运行作为一个特定的分割,分割名称使用运行的时间戳。"train"分割始终指向最新的结果。此外,还有一个名为"results"的配置,存储了运行的所有聚合结果。
数据集加载示例
python from datasets import load_dataset data = load_dataset("OALL/details_Qwen__Qwen1.5-110B", "lighteval_xstory_cloze_ar_0", split="train")
最新结果
- 最新结果来自2024-06-06T14:46:34.204186的运行,包含多个任务的评估数据,每个任务的结果可以在"results"配置和相应的"latest"分割中找到。
数据集详细信息
评估结果
- 数据集提供了详细的评估结果,包括但不限于:
- 准确率(acc_norm)
- 准确率标准误差(acc_norm_stderr)
- 总准确率(acc)
- 总准确率标准误差(acc_stderr)
任务分类
- 数据集涵盖了多个社区和任务的评估,如:
- 社区|acva:Algeria|0
- 社区|acva:Ancient_Egypt|0
- 社区|acva:Arab_Empire|0
- 社区|acva:Arabic_Architecture|0
- 社区|acva:Arabic_Art|0
- 社区|acva:Arabic_Astronomy|0
- 社区|acva:Arabic_Calligraphy|0
- 社区|acva:Arabic_Ceremony|0
- 社区|acva:Arabic_Clothing|0
- 社区|acva:Arabic_Culture|0
- 社区|acva:Arabic_Food|0
- 社区|acva:Arabic_Funeral|0
- 社区|acva:Arabic_Geography|0
- 社区|acva:Arabic_History|0
- 社区|acva:Arabic_Language_Origin|0
- 社区|acva:Arabic_Literature|0
- 社区|acva:Arabic_Math|0
- 社区|acva:Arabic_Medicine|0
- 社区|acva:Arabic_Music|0
- 社区|acva:Arabic_Ornament|0
- 社区|acva:Arabic_Philosophy|0
- 社区|acva:Arabic_Physics_and_Chemistry|0
- 社区|acva:Arabic_Wedding|0
- 社区|acva:Bahrain|0
- 社区|acva:Comoros|0
- 社区|acva:Egypt_modern|0
- 社区|acva:InfluenceFromAncientEgypt|0
- 社区|acva:InfluenceFromByzantium|0
- 社区|acva:InfluenceFromChina|0
- 社区|acva:InfluenceFromGreece|0
- 社区|acva:InfluenceFromIslam|0
- 社区|acva:InfluenceFromPersia|0
- 社区|acva:InfluenceFromRome|0
- 社区|acva:Iraq|0
- 社区|acva:Islam_Education|0
- 社区|acva:Islam_branches_and_schools|0
- 社区|acva:Islamic_law_system|0
- 社区|acva:Jordan|0
- 社区|acva:Kuwait|0
- 社区|acva:Lebanon|0
- 社区|acva:Libya|0
- 社区|acva:Mauritania|0
- 社区|acva:Mesopotamia_civilization|0
- 社区|acva:Morocco|0
- 社区|acva:Oman|0
- 社区|acva:Palestine|0
- 社区|acva:Qatar|0
- 社区|acva:Saudi_Arabia|0
- 社区|acva:Somalia|0
- 社区|acva:Sudan|0
- 社区|acva:Syria|0
- 社区|acva:Tunisia|0
- 社区|acva:United_Arab_Emirates|0
- 社区|acva:Yemen|0
- 社区|acva:communication|0
- 社区|acva:computer_and_phone|0
- 社区|acva:daily_life|0
- 社区|acva:entertainment|0
- 社区|alghafa:mcq_exams_test_ar|0
- 社区|alghafa:meta_ar_dialects|0
- 社区|alghafa:meta_ar_msa|0
- 社区|alghafa:multiple_choice_facts_truefalse_balanced_task|0
- 社区|alghafa:multiple_choice_grounded_statement_soqal_task|0
- 社区|alghafa:multiple_choice_grounded_statement_xglue_mlqa_task|0
- 社区|alghafa:multiple_choice_rating_sentiment_no_neutral_task|0
- 社区|alghafa:multiple_choice_rating_sentiment_task|0
- 社区|alghafa:multiple_choice_sentiment_task|0
- 社区|arabic_exams|0
- 社区|arabic_mmlu:abstract_algebra|0
- 社区|arabic_mmlu:anatomy|0
- 社区|arabic_mmlu:astronomy|0
- 社区|arabic_mmlu:business_ethics|0
- 社区|arabic_mmlu:clinical_knowledge|0
- 社区|arabic_mmlu:college_biology|0
- 社区|arabic_mmlu:college_chemistry|0
- 社区|arabic_mmlu:college_computer_science|0
- 社区|arabic_mmlu:college_mathematics|0
- 社区|arabic_mmlu:college_medicine|0
- 社区|arabic_mmlu:college_physics|0
- 社区|arabic_mmlu:computer_security|0
- 社区|arabic_mmlu:conceptual_physics|0
- 社区|arabic_mmlu:econometrics|0
- 社区|arabic_mmlu:electrical_engineering|0
- 社区|arabic_mmlu:elementary_mathematics|0
- 社区|arabic_mmlu:formal_logic|0
- 社区|arabic_mmlu:global_facts|0
- 社区|arabic_mmlu:high_school_biology|0
- 社区|arabic_mmlu:high_school_chemistry|0
- 社区|arabic_mmlu:high_school_computer_science|0
- 社区|arabic_mmlu:high_school_european_history|0
- 社区|arabic_mmlu:high_school_geography|0
- 社区|arabic_mmlu:high_school_government_and_politics|0
- 社区|arabic_mmlu:high_school_macroeconomics|0
- 社区|arabic_mmlu:high_school_mathematics|0
- 社区|arabic_mmlu:high_school_microeconomics|0
- 社区|arabic_mmlu:high_school_physics|0
- 社区|arabic_mmlu:high_school_psychology|0
- 社区|arabic_mmlu:high_school_statistics|0
- 社区|arabic_mmlu:high_school_us_history|0
- 社区|arabic_mmlu:high_school_world_history|0
- 社区|arabic_mmlu:human_aging|0
- 社区|arabic_mmlu:human_sexuality|0
- 社区|arabic_mmlu:international_law|0
- 社区|arabic_mmlu:jurisprudence|0
- 社区|arabic_mmlu:logical_fallacies|0
- 社区|arabic_mmlu:machine_learning|0
- 社区|arabic_mmlu:management|0
- 社区|arabic_mmlu:marketing|0
- 社区|arabic_mmlu:medical_genetics|0
- 社区|arabic_mmlu:miscellaneous|0
- 社区|arabic_mmlu:moral_disputes|0
- 社区|arabic_mmlu:moral_scenarios|0
- 社区|arabic_mmlu:nutrition|0
- 社区|arabic_mmlu:philosophy|0
- 社区|arabic_mmlu:prehistory|0
- 社区|arabic_mmlu:professional_accounting|0
- 社区|arabic_mmlu:professional_law|0
- 社区|arabic_mmlu:professional_medicine|0
- 社区|arabic_mmlu:psychology|0
- 社区|arabic_mmlu:statistics|0
- 社区|arabic_mmlu:world_religions|0
数据集使用
- 数据集可用于评估模型在不同任务上的性能,通过加载特定的分割来获取相应的评估结果。



