tyouisen/aclue|古代汉语数据集|语言模型评估数据集

hugging_face2024-01-29 更新2024-03-04 收录

古代汉语

语言模型评估

下载链接：

https://hf-mirror.com/datasets/tyouisen/aclue

下载链接

链接失效反馈

资源简介：

Ancient Chinese Language Understanding Evaluation (ACLUE) 是一个面向古代汉语的评估基准，旨在帮助评估大型语言模型在古代汉语上的表现。该基准测试包含15个任务，涵盖了各个领域，包括词汇、句法、语义、推理和知识。我们为这15个任务提供了开发集和测试集数据，开发集中有5个问题，而测试集中则有100多个问题。我们鼓励研究人员使用ACLUE来测试和提升其模型在古代汉语语言理解方面的能力。ACLUE的任务取自人工挑选的公开资源和自动生成的古代汉语语料库。这些问题涵盖了从夏朝（公元前2070年）到明朝（公元1368年）的广泛时间范围。ACLUE对所有任务都采用了多项选择题的形式。

提供机构：

tyouisen

原始信息汇总

数据集卡片：ACLUE

简介

Ancient Chinese Language Understanding Evaluation (ACLUE) 是一个面向古代汉语的评估基准，旨在帮助评估大型语言模型在古代汉语上的表现。

数据

该基准测试包含15个任务，涵盖了各个领域，包括词汇、句法、语义、推理和知识。每个任务都提供了开发集和测试集数据，开发集中有5个问题，而测试集中则有100多个问题。ACLUE的任务取自人工挑选的公开资源和自动生成的古代汉语语料库，涵盖了从夏朝到明朝的广泛时间范围。所有任务都采用了多项选择题的形式。

数据实例

数据集中的每个问题都是一个包含4个选项的多项选择题，其中只有一个选项是正确答案。以下是两个示例：

以下是关于{古诗词曲鉴赏}的单项选择题，请直接给出正确答案的选项。题目：《木兰诗--北朝民歌》唧唧复唧唧,木兰当户织。不闻机杼声,唯闻女叹息。问女何所思,问女何所忆。女亦无所思,女亦无所忆。昨夜见军帖,可汗大点兵,军书十二卷,卷卷有爷名。阿爷无大儿,木兰无长兄,愿为市鞍马,从此替爷征。东市买骏马,西市买鞍鞯,南市买辔头,北市买长鞭。旦辞爷娘去,暮宿黄河边,不闻爷娘唤女声,但闻黄河流水鸣溅溅。旦辞黄河去,暮至黑山头,不闻爷娘唤女声,但闻燕山胡骑鸣啾啾。万里赴戎机,关山度若飞。朔气传金柝,寒光照铁衣。将军百战死,壮士十年归。归来见天子,天子坐明堂。策勋十二转,赏赐百千强。可汗问所欲,木兰不用尚书郎,愿驰千里足,送儿还故乡。爷娘闻女来,出郭相扶将;阿姊闻妹来,当户理红妆;小弟闻姊来,磨刀霍霍向猪羊。开我东阁门,坐我西阁床。脱我战时袍,著我旧时裳。当窗理云鬓,对镜帖花黄。出门看火伴,火伴皆惊忙:同行十二年,不知木兰是女郎。雄兔脚扑朔,雌兔眼迷离;双兔傍地走,安能辨我是雄雌?下列对这首诗的理解和分析,不正确的一项是 () A. 《木兰诗》是南北朝时期的一首长篇叙事民歌,风格刚健质朴。全诗以“木兰是女郎”来构思木兰的传奇故事,富有浪漫色彩。 B. “愿为市鞍马”的“市”是“市场”的意思,“万里赴戎机”的“戎机”是“战事”的意思。 C. 木兰“不用尚书郎”而愿“还故乡”固然有对家乡的眷恋,但也有自己女儿身秘密的因素。 D. “朔气传金柝,寒光照铁衣”运用对偶手法,描写了木兰在边塞艰苦的军旅生活。答案是：B

题目：《虞美人》李煜。春花秋月何时了？往事知多少。小楼昨夜又东风，故国不堪回首月明中。雕栏玉砌应犹在，只是朱颜改。问君能有几多愁？恰似一江春水向东流。对《虞美人》的赏析,不恰当的一项是（） A. 词作从眼前景物入手,生发联想和想像,追怀昔日帝王生活,描摹了一幅幅鲜活的画面,隐晦地表达出叛逆之情,惹恼了宋太宗,铸成了词人悲惨结局。 B. 词作以实虚相间的手法来绘景、抒情、达意,忽而写眼前,忽而写想像。 C. 《虞美人》乃李煜绝笔词 D. 《虞美人》以其形式别致给人美感愉悦。答案是：

任务详情

以下列出了任务的类别、实例数量、问题平均长度以及任务的来源：

Task	Total Q.	Avg. len	Task (zh)	Category	Origin
Named entity recognition	500	138	古汉语命名体识别	lexical	generated
Polysemy resolution	500	116	古文单字多义	lexical	generated
Homographic character resolution	500	137	通假字	lexical	generated
Sentence segmentation	500	210	古文断句	syntactic	generated
Couplet prediction	500	62	对联预测	semantic	generated
Poetry context prediction	500	77	古诗词上下句预测	semantic	generated
Poetry sentiment analysis	500	60	诗词情感分类	inference	generated
Poem quality estimation	406	118	古诗词质量评估	inference	generated
Ancient Chinese medical	211	38	医古文	knowledge	collected
Ancient Chinese literature	160	44	古代文学知识	knowledge	collected
Traditional Chinese culture	136	59	国学常识	knowledge	collected
Poetry appreciation	103	258	古诗词曲鉴赏	inference	collected
Basic ancient Chinese	249	52	基础古汉语知识	knowledge	collected
Reading comprehension	101	982	古文阅读理解	inference	collected
Ancient Chinese phonetics	101	50	古音学	knowledge	collected

加载数据

python task_list = [polysemy_resolution, poetry_sentiment_analysis, named_entity_recognition, basic_ancient_chinese, poetry_context_prediction, sentence_segmentation, couplet_prediction, poetry_appreciate, ancient_chinese_culture, ancient_phonetics, homographic_character_resolution, ancient_literature, ancient_medical, poetry_quality_assessment, reading_comprehension]

from datasets import load_dataset dataset = {k: load_dataset(r"tyouisen/aclue", k) for k in task_list}

Print an example:

print(dataset[polysemy_resolution][test][0])

Or download specific dataset:

dataset = load_dataset("tyouisen/aclue", "couplet_prediction", split="test") # or split = "dev"

许可证

ACLUE数据集采用：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

AI搜集汇总

数据集介绍

构建方式

ACLUE数据集的构建，汇集了人工挑选的公开资源和自动生成的古代汉语语料库，旨在形成一个全面的古代汉语语言理解评估基准。该数据集包含15个任务，覆盖了词汇、句法、语义、推理和知识等多个领域，为每个任务提供了开发集和测试集，包含从夏朝到明朝的广泛时间范围内的古代汉语实例。所有任务均采用多项选择题的形式，以评估大型语言模型在古代汉语理解方面的表现。

特点

该数据集的特点在于其内容的多样性，涵盖了古代汉语的多个方面，包括语言基础知识和文化常识。它不仅来源于人工精选的古代文献，还包括自动生成的语料，使得数据集在覆盖面上更为全面。此外，ACLUE的数据实例设计为多项选择题，有助于标准化评估过程，确保评估结果的一致性和可比性。

使用方法

使用ACLUE数据集时，用户可以加载特定的任务数据，如命名体识别、古文断句、对联预测等。通过HuggingFace的datasets库，用户可以方便地加载和访问这些数据。此外，用户还可以根据需要下载特定的数据集分割，如测试集或开发集，以进行模型的训练和评估。数据集的使用不仅有助于提升模型对古代汉语的理解能力，也为研究人员提供了一个统一的评估平台。

背景与挑战

背景概述

ACLUE（Ancient Chinese Language Understanding Evaluation）是一项专注于古代汉语理解的评价基准，其诞生旨在应对大型语言模型在处理古代汉语文本时的性能评估问题。该数据集由张奕轩与李豪男等研究者于2023年提出，并在古代语言处理工作坊上发表相关论文。它汇集了15个任务，涵盖了词汇、句法、语义、推理和知识等多个领域，为研究人员提供了一个全面的古代汉语理解能力测试平台。ACLUE的构建，不仅丰富了古代汉语处理的相关研究资源，也为推动大型语言模型在古代文献理解方面的应用提供了重要支撑。

当前挑战

在构建ACLUE数据集的过程中，研究人员面临了多方面的挑战。首先，古代汉语的多样性和复杂性使得词汇理解、句法分析等任务的构建尤为困难。其次，由于古代文献的获取和整理难度较大，构建高质量的问题和答案需要对古代文化有深入的理解和研究。此外，数据集的构建还需克服古代文本资源的版权问题，确保数据的合法合规使用。在研究领域问题上，ACLUE需解决如何准确评估模型在古代汉语理解方面的能力，尤其是在处理具有深厚文化背景的文本时，如何使模型理解更加深入和准确。

常用场景

经典使用场景

在古代汉语研究领域，ACLUE数据集以其全面的任务类型和丰富的数据资源，成为评估大型语言模型在古代汉语理解方面的能力的经典工具。该数据集涵盖了从词汇理解到句法分析，再到语义推理和知识应用等各个方面，为研究者和开发者提供了一个综合性的评估平台。

解决学术问题

ACLUE数据集解决了古代汉语处理中模型性能评估的问题，通过提供标准化的测试题目和答案，使得研究者在模型训练后能够进行有效的性能评估。这对于提高古代汉语自然语言处理技术的准确性和实用性具有重要意义。

衍生相关工作

基于ACLUE数据集的研究已经衍生出一系列相关工作，如古代汉语的自动标注系统、古代文献语义理解模型、以及针对特定领域的知识抽取工具，这些工作进一步推动了古代汉语自然语言处理技术的发展和应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Thyroid Disease Data

该数据集包含13个临床病理特征，旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据，每位患者至少被跟踪了10年。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

NACC

NACC（National Alzheimer's Coordinating Center）数据集包含了来自美国各地的阿尔茨海默病研究中心的临床和神经病理学数据。该数据集主要用于研究阿尔茨海默病和其他相关痴呆症的进展和治疗。数据包括患者的临床评估、认知测试、神经影像学数据、遗传信息和病理学报告等。

naccdata.org 收录