WYWEB

arXiv2023-05-23 更新2024-07-30 收录

下载链接：

https://github.com/baudzhou/WYWEB

下载链接

链接失效反馈

官方服务：

资源简介：

WYWEB是一个用于评估古典中文NLP模型的基准，包含九个任务，如句子分类、序列标注、阅读理解和机器翻译。

WYWEB is a benchmark for evaluating classical Chinese NLP models, which comprises nine tasks including sentence classification, sequence labeling, reading comprehension, and machine translation.

创建时间：

2023-05-23

原始信息汇总

WYWEB 数据集概述

数据集介绍

WYWEB 是一个用于评估古文处理的自然语言处理（NLP）基准测试。该数据集包含多个任务，旨在帮助社区更好地理解和处理古文。

任务列表及描述

任务	训练集	开发集	测试集	描述	评估指标	来源
PUNC	90k	20k	20k	序列标注	F1	权威文本
TLC	28k	6k	6k	句子分类	准确率	古文
GJC	100k	20k	20k	句子分类	准确率	戴志阁
XuCi	800	200	200	词相似度	准确率	考试试卷
WYWRC	3k	500	500	阅读理解	准确率	考试试卷
IRC	3k	1k	1k	阅读理解	准确率	考试试卷
WYWMT	20k	3k	3k	机器翻译	BLEU	在线
GLNER	80k	18k	18k	序列标注	F1	citet{GULIAN2020}
FSPC	3000	1000	1000	句子分类	准确率	THU-FSPC

模型性能

主要任务性能

模型	平均	PUNC	GLNER	GJC	FSPC	TLC	XuCi	WYWRC	IRC
Human	88.0	92.4	94.3	90.3	80.0	89.0	85.3	80.0	92.3
DeBERTa-base	75.9	83.3	86.7	85.2	61.1	86.7	72.4	45.1	86.7
GuwenBERT-base	72.9	82.5	82.8	84.8	61.3	85.1	71.7	28.0	86.8
GuwenBERT-large	75.6	83.1	86.1	84.9	58.5	87.6	73.4	44.4	87.8
GuwenBERT-base-fs	74.6	82.9	84.8	84.2	61.0	86.7	70.0	42.1	85.3
RoBERTa-CCBC	74.5	82.5	84.7	84.5	59.5	85.0	73.2	40.7	86.1
RoBERTa-CCLC	75.3	82.8	86.1	84.7	58.6	87.1	74.9	41.0	86.9
SikuBERT	73.7	80.8	82.8	82.2	60.9	82.4	70.4	44.0	85.8
SikuRoBERTa	73.5	81.4	82.8	82.5	62.2	83.8	68.5	41.0	85.8
RoBERTa-wwm-ext	72.1	78.8	79.8	81.3	59.2	78.3	71.0	42.1	86.2

WYWMT 任务性能

模型	BLEU	chrF2	TER	ROUGE-1	ROUGE-2	ROUGE-L
Human	45.6	44.2	34.4	77.4	50.7	76.2
guwenbert-base	40.1	38.1	37.5	72.5	46.0	70.3
guwenbert-large	38.8	37.2	38.1	70.1	43.7	67.7
guwenbert-base-fs	36.3	35.2	39.2	68.3	41.2	65.7
roberta-CCBC	39.1	37.1	36.8	71.4	44.9	69.3
roberta-CCLC	39.8	38.0	36.4	71.6	45.3	69.3
SikuBERT	38.8	36.2	37.9	72.0	45.5	69.8
SikuRoBERTa	39.1	36.5	37.7	72.2	45.7	70.0
DeBERTa-base	39.5	37.8	35.9	71.9	44.2	68.7
Roberta-wwm-ext	38.0	35.8	39.1	69.9	43.2	66.7

如何测试新模型

研究人员可以使用评估工具包，通过几行代码快速评估预训练语言模型。具体步骤如下：

在每个任务上测试你的模型。
获取最佳开发集分数，使用该模型评估测试集。
将测试集结果发送给我们。
维护人员验证结果后更新排行榜。

引用

@inproceedings{zhou-etal-2023-wyweb, title = "{WYWEB}: A {NLP} Evaluation Benchmark For Classical {C}hinese", author = "Zhou, Bo and Chen, Qianglong and Wang, Tianyu and Zhong, Xiaomi and Zhang, Yin", booktitle = "Findings of the Association for Computational Linguistics: ACL 2023", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-acl.204", doi = "10.18653/v1/2023.findings-acl.204", pages = "3294--3319" }

搜集汇总

数据集介绍

构建方式

在文言文自然语言处理领域，WYWEB基准的构建遵循了严谨的学术原则与数据采集流程。该数据集通过整合权威古籍文献、考试试题及开源语料，系统性地设计了九项核心任务。构建过程中，团队首先依据文本的时间跨度和文体多样性原则筛选语料，确保覆盖从先秦至清代的各类文献。对于句读、文本分类等任务，采用从《二十四史》、《殆知阁》等高质量典籍中分段抽样的方法，并经过多轮人工校对与专家审核。而对于阅读理解和虚词辨析等任务，则从数千份中学语文试卷中提取题目，经过光学字符识别、文本对齐与纠错后，由古典文献专业人员进行标注与复核，最终形成结构化的评估数据。

使用方法

WYWEB数据集的使用旨在系统评估模型在文言文领域的综合性能。研究者可通过其官方GitHub仓库获取数据集、评估工具包及基线模型代码。典型使用流程包括：首先，利用提供的PyTorch与Transformers脚本加载预处理后的任务数据，并按照标准划分进行训练、验证与测试。对于序列标注与分类任务，可采用基于[CLS]标记或相应词元隐藏状态的分类器进行微调；阅读理解任务需对篇章、问题与选项进行联合编码后评分选择；机器翻译任务则支持序列到序列的生成式评估。评估完成后，结果可提交至在线排行榜进行横向比较。该工具包的设计便于集成各类预训练模型，并支持在Hugging Face模型库中部署，以促进文言文自然语言处理技术的迭代与创新。

背景与挑战

背景概述

WYWEB作为古典中文自然语言处理领域的评估基准，由浙江大学与小鸟AI团队于2023年联合推出，旨在填补该领域长期缺乏标准化评估工具的空白。古典中文作为跨越数千年的文化遗产，承载着丰富的学术与历史价值，然而其与现代中文在语法、词汇及表达方式上的显著差异，使得现有基于现代语料的预训练模型难以有效处理古典文本。该数据集涵盖句子分类、序列标注、阅读理解及机器翻译等九项核心任务，通过系统化设计为模型性能评估提供了全面框架，推动了古典中文计算语言学研究的深入发展。

当前挑战

WYWEB所针对的古典中文自然语言理解面临多重挑战：其一，古典中文语法结构复杂且词汇多义性显著，例如虚词在不同语境中功能各异，增加了模型语义解析的难度；其二，数据资源稀缺且标注成本高昂，需依赖专业学者进行精细校对，以确保语料权威性与准确性。在构建过程中，团队需克服跨时代文本风格差异、文献数字化程度不均以及古今语言对齐困难等问题，同时还需设计兼顾语言学特性与计算可行性的任务体系，以平衡学术严谨性与工程实用性。

常用场景

经典使用场景

在古典中文自然语言处理领域，WYWEB评估基准以其精心设计的九项任务体系，为模型性能提供了全面而严谨的测试平台。该数据集最经典的使用场景在于系统评估预训练语言模型在文言文理解任务上的综合能力，涵盖句子分类、序列标注、阅读理解及机器翻译等多个核心维度。通过模拟真实学术研究中的语言现象，如古文断句、虚词辨析和典籍分类，WYWEB能够有效衡量模型对古典中文语法结构、语义内涵及文化背景的掌握程度，为相关领域的模型优化与比较建立了标准化框架。

解决学术问题

WYWEB基准的构建，主要解决了古典中文自然语言处理研究中长期存在的评估体系缺失问题。传统上，由于文言文与现代汉语在语法、词汇及表达方式上存在显著差异，基于现代汉语训练的模型难以直接迁移至古典文本分析任务。该数据集通过设计针对性的任务，如基于典籍的文本分类、历史时期判定及古文机器翻译，为模型在古典领域的适应性与泛化能力提供了量化评估依据。其意义在于推动了文言文计算语言学研究的规范化发展，促进了跨时代语言理解技术的进步，并为文化遗产的数字化保护与传承提供了关键技术支撑。

实际应用

在实际应用层面，WYWEB数据集为古典文献的智能化处理与知识挖掘提供了重要工具。其任务设计紧密贴合古籍整理、数字人文及教育辅助等现实需求，例如通过自动断句与标点恢复功能，可大幅提升古籍数字化整理的效率；借助文本分类与时间判定模型，能够辅助学者进行文献考据与脉络梳理；而古文机器翻译任务则有助于降低文言文的理解门槛，促进经典文化的普及与传播。这些应用不仅推动了人文研究与信息技术的深度融合，也为传统文化资源的活化利用开辟了新的技术路径。

数据集最近研究