yuting-wei/aceval

Name: yuting-wei/aceval
Creator: yuting-wei
Published: 2024-04-06 15:21:00
License: 暂无描述

Hugging Face2024-04-06 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/yuting-wei/aceval

下载链接

链接失效反馈

官方服务：

资源简介：

AC-EVAL是一个用于评估大型语言模型对古代中文理解能力的全面评估套件，涵盖了从先秦到清朝的多个时期。该套件包括3245个多选题，分为3个难度级别和13个不同的任务。每个主题包含开发集和测试集，开发集包含五个示例和解释，用于少样本评估，测试集用于模型评估。测试集的标签未发布，用户需要提交结果以自动获取测试准确率。

提供机构：

yuting-wei

原始信息汇总

数据集概述

名称: AC-EVAL
目的: 评估大型语言模型对古代汉语的理解能力
语言: 中文
类别:
- 多选题
- 问答
标签:
- 古代中文
- 大型语言模型（LLM）
- 评估
规模: 1K<n<10K

数据集详情

内容: 包含3245个多选题，覆盖从先秦时期到清朝的各个时代，分为3个难度级别和13种不同的任务。
数据结构: 每个主题包含两个部分：dev和test。dev集包含5个示例及其解释，用于少量样本评估；test集用于模型评估，其标签未公开，用户需提交结果以自动获取测试准确率。

示例:

Question	A	B	C	D	Answer	Explanation
五代南唐时期著名画家顾闳中的绘画名作是？	《女史箴图》	《五牛图》	《簪花仕女图》	《韩熙载夜宴图》	D	详细解释

使用方法

加载数据: python from datasets import load_dataset aceval=load_dataset(r"yuting-wei/aceval", art_and_cultural_heritage)
加载所有数据: python task_list = [historical_facts, geography, social_customs, art_and_cultural_heritage, philosophy_and_religion, lexical_pragmatics_analysis, allusions_and_idioms, word_sense_disambiguation, translation, event_extraction, sentence_pauses, summarization_and_analysis, poetry_appreciation] aceval = {k: load_dataset(r"yuting-wei/aceval", k) for k in task_list}

许可证

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用信息

@misc{wei2024aceval, title={AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models}, author={Yuting Wei and Yuanxing Xu and Xinru Wei and Simin Yang and Yangfu Zhu and Yuqing Li and Di Liu and Bin Wu}, year={2024}, eprint={2403.06574}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

AC-EVAL数据集构建于对大型语言模型在古汉语理解能力评估的需求之上，涵盖了从先秦至清朝的广泛历史时期。该数据集通过精心设计的3245道多选题，分为三个难度级别和13个不同任务类别，旨在全面评估模型对古汉语的深度理解。数据集的开发集包含带有解释的示例，而测试集则用于模型评估，测试集的标签未公开，用户需提交结果以获取准确率。

使用方法

使用AC-EVAL数据集时，用户可以通过Hugging Face的`datasets`库轻松加载数据。数据集分为开发集和测试集，开发集包含带有解释的示例，适合用于模型的微调和验证。测试集则用于最终评估，用户需提交模型预测结果以获取准确率。数据集支持按任务类别加载，用户可以选择加载单个任务或一次性加载所有任务数据，便于灵活使用。

背景与挑战

背景概述

AC-EVAL数据集由Yuting Wei等人于2024年创建，旨在评估大型语言模型（LLMs）在古汉语理解方面的能力。该数据集涵盖了从先秦到清朝的多个历史时期，包含3245道多选题，分为三个难度级别和13个不同的任务类别。这一数据集不仅为研究者提供了一个全面的评估工具，还推动了古汉语自然语言处理领域的发展。通过AC-EVAL，研究者能够更深入地理解LLMs在处理古汉语文本时的表现，并为未来的模型优化提供重要参考。

当前挑战

AC-EVAL数据集在构建和应用过程中面临多重挑战。首先，古汉语的复杂性和多样性使得数据标注和模型训练变得极为困难，尤其是在处理多义词、典故和成语时。其次，数据集的构建需要大量的领域专家参与，以确保问题的准确性和代表性。此外，由于古汉语与现代汉语在语法和词汇上的显著差异，模型在跨时代文本理解上的表现往往不尽如人意。最后，数据集的评估机制要求用户提交结果以获取测试精度，这增加了使用门槛，但也确保了评估的公正性和透明度。

常用场景

经典使用场景

AC-EVAL数据集主要用于评估大型语言模型在古汉语理解方面的能力。该数据集通过涵盖从先秦到清朝的多个历史时期，提供了3245道多选题，分为三个难度级别和13个不同的任务类别。这些任务包括历史事实、地理、社会习俗、艺术与文化遗产等多个领域，能够全面测试模型对古汉语文本的理解和分析能力。

解决学术问题

AC-EVAL数据集解决了大型语言模型在古汉语理解领域的评估难题。通过提供多样化的任务和难度级别，该数据集能够有效评估模型在不同历史时期和语境下的表现。这不仅有助于研究者识别模型的局限性，还为改进模型在古汉语处理方面的能力提供了科学依据，推动了古汉语自然语言处理领域的研究进展。

实际应用

在实际应用中，AC-EVAL数据集可用于开发和教育领域。例如，它可以用于构建智能教育系统，帮助学生更好地理解古汉语文本；也可以用于开发文化传承工具，帮助研究人员和公众更深入地了解中国古代文化和历史。此外，该数据集还可用于评估和优化机器翻译系统在处理古汉语文本时的表现。

数据集最近研究