WenyanBENCH
收藏arXiv2025-04-29 更新2025-05-01 收录
下载链接:
https://github.com/Wenyanmuc/WenyanBENCH
下载链接
链接失效反馈资源简介:
WenyanBENCH是一个专门为评估古汉语语言处理模型而设计的基准数据集。该数据集包含了古汉语的多种任务,如标点、词性标注、命名实体识别、翻译等,总计有25,953条数据。WenyanBENCH数据集由多个任务组成,包括14种标点符号的分类、17类古汉语词性的标注、4类命名实体的识别。数据集的来源与WenyanGPT模型的指令微调数据相同,并经过去重和人工及语言模型验证。该数据集旨在解决古汉语处理任务中缺乏标准化评估基准的问题,为研究者提供一个可靠的性能评估工具。
WenyanBENCH is a benchmark dataset specifically designed for evaluating classical Chinese language processing models. This dataset covers multiple classical Chinese language tasks including punctuation classification, part-of-speech tagging, named entity recognition, and translation, with a total of 25,953 data entries. The WenyanBENCH dataset consists of several specific tasks: classification of 14 types of punctuation symbols, annotation of 17 categories of classical Chinese part-of-speech, and recognition of 4 types of named entities. The dataset is sourced from the same instruction fine-tuning corpus as the WenyanGPT model, and has been deduplicated and verified by human annotators and language models. This dataset aims to address the lack of standardized evaluation benchmarks in classical Chinese language processing tasks, providing researchers with a reliable performance evaluation tool.
提供机构:
中国民族大学, 国家语言资源监测与研究
创建时间:
2025-04-29
原始信息汇总
WenyanBENCH数据集概述
基本信息
- 数据集名称:WenyanBENCH
- 托管平台:GitHub
- 托管地址:https://github.com/Wenyanmuc/WenyanBENCH
数据集描述
(注:根据提供的README内容,该数据集未包含具体描述信息)
搜集汇总
数据集介绍

构建方式
WenyanBENCH数据集的构建基于权威的古汉语语料库,包括来自代字格、文言古籍网等平台的多样化文本资源。构建过程中,研究团队对原始数据进行了严格的清洗和格式化处理,剔除了冗余信息、错误字符及无效符号,最终形成了一个约16GB的高质量古汉语语料库。该语料库涵盖了从先秦至民国时期的各类文献,包括儒家经典、历史记录、哲学著作、诗词歌赋等,确保了数据在时间和体裁上的广泛代表性。
特点
WenyanBENCH数据集作为古汉语处理领域的评估基准,具有任务多样性和专业性强的特点。该数据集包含标点标注、词性标注、命名实体识别、翻译等六类核心任务,并进一步细分为14种标点符号类型、17种词性类别和4类命名实体。数据集经过人工和大型语言模型的双重验证,确保了标注质量和任务难度的一致性,为古汉语信息处理研究提供了系统化的评估框架。
使用方法
使用WenyanBENCH数据集时,研究者可根据不同任务类型选择相应的评估指标:理解类任务采用精确率、召回率和F1值,生成类任务则使用BLEU和BERT-Score。数据集配备了自动化评估工具链,支持快速计算各项指标并生成标准化评估报告。为保障评估有效性,建议在模型测试前进行数据去重处理,并对生成类任务结果进行人工抽样校验,以补充自动化评估在语义理解方面的局限性。
背景与挑战
背景概述
WenyanBENCH数据集由中央民族大学与国家语言资源监测与研究中心联合开发,旨在推动古汉语智能处理领域的研究。该数据集于2025年随WenyanGPT大语言模型一同发布,核心研究聚焦于解决现代自然语言处理模型在古汉语任务上的性能不足问题。作为首个系统性的古汉语评估基准,其覆盖标点标注、词性标注、实体识别等六类典型任务,填补了该领域标准化评估工具的空白。数据集构建依托《四库全书》等权威典籍的16GB高质量语料,时间跨度从先秦延续至民国,为数字人文研究提供了重要基础设施。
当前挑战
古汉语处理面临语义演变与语法特殊的双重挑战,WenyanBENCH需解决文言虚词多义性、通假字识别等语言学难题。数据构建过程中,生僻字编码处理与跨朝代语言差异导致标注一致性难以保障,需设计兼顾简繁体的预处理流程。在模型评估维度,传统BLEU指标对文言文翻译的适用性有限,需结合BERT-Score等多维度度量。此外,典籍中官职名、年号等特殊实体识别要求构建细粒度标注体系,这对标注人员的文献学素养提出较高要求。
常用场景
经典使用场景
WenyanBENCH数据集在古典汉语自然语言处理领域具有广泛的应用场景,尤其在古文标点、词性标注、命名实体识别等任务中表现突出。该数据集通过提供高质量的标注数据,支持研究者对古文进行精确的语言分析。例如,在古文标点任务中,WenyanBENCH能够帮助模型准确识别并添加标点符号,从而提升古文的可读性和理解性。此外,该数据集还广泛应用于古文翻译任务,为现代汉语与古典汉语之间的转换提供了重要支持。
衍生相关工作
WenyanBENCH数据集衍生了一系列经典研究工作。基于该数据集,研究者开发了WenyanGPT等专用大语言模型,这些模型在古文处理任务中表现出色。此外,该数据集还启发了多个跨领域研究,如古文诗歌生成、古籍信息提取等。相关成果包括AnchiBERT、SikuBERT等预训练模型,以及TongGu等对话系统。这些工作不仅扩展了古典汉语处理的技术边界,还为后续研究提供了丰富的资源和参考。
数据集最近研究
最新研究方向
在古典汉语自然语言处理领域,WenyanBENCH数据集的推出标志着该领域评估体系的重大突破。该数据集作为WenyanGPT大语言模型的配套评估基准,涵盖了标点标注、词性标注、命名实体识别、翻译等六类核心任务,并创新性地设计了细粒度子任务分类体系。当前研究热点集中在基于领域自适应预训练的多任务联合优化策略,通过16GB高质量古典汉语语料库的持续预训练和185万条指令微调数据的多任务学习,显著提升了模型在复杂文言现象处理中的泛化能力。随着数字人文研究的深入,该数据集在古籍智能标点、历史实体挖掘、跨时代语义对齐等应用场景展现出重要价值,为构建标准化古典汉语处理评估框架提供了关键基础设施。
相关研究论文
- 1WenyanGPT: A Large Language Model for Classical Chinese Tasks中国民族大学, 国家语言资源监测与研究 · 2025年
以上内容由遇见数据集搜集并总结生成



