yuting-wei/aceval
收藏数据集概述
- 名称: AC-EVAL
- 目的: 评估大型语言模型对古代汉语的理解能力
- 语言: 中文
- 类别:
- 多选题
- 问答
- 标签:
- 古代中文
- 大型语言模型(LLM)
- 评估
- 规模: 1K<n<10K
数据集详情
-
内容: 包含3245个多选题,覆盖从先秦时期到清朝的各个时代,分为3个难度级别和13种不同的任务。
-
数据结构: 每个主题包含两个部分:dev和test。dev集包含5个示例及其解释,用于少量样本评估;test集用于模型评估,其标签未公开,用户需提交结果以自动获取测试准确率。
-
示例:
Question A B C D Answer Explanation 五代南唐时期著名画家顾闳中的绘画名作是? 《女史箴图》 《五牛图》 《簪花仕女图》 《韩熙载夜宴图》 D 详细解释
使用方法
-
加载数据: python from datasets import load_dataset aceval=load_dataset(r"yuting-wei/aceval", art_and_cultural_heritage)
-
加载所有数据: python task_list = [historical_facts, geography, social_customs, art_and_cultural_heritage, philosophy_and_religion, lexical_pragmatics_analysis, allusions_and_idioms, word_sense_disambiguation, translation, event_extraction, sentence_pauses, summarization_and_analysis, poetry_appreciation] aceval = {k: load_dataset(r"yuting-wei/aceval", k) for k in task_list}
许可证
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
引用信息
@misc{wei2024aceval, title={AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models}, author={Yuting Wei and Yuanxing Xu and Xinru Wei and Simin Yang and Yangfu Zhu and Yuqing Li and Di Liu and Bin Wu}, year={2024}, eprint={2403.06574}, archivePrefix={arXiv}, primaryClass={cs.CL} }




