WYWEB
收藏arXiv2023-05-23 更新2024-07-30 收录
下载链接:
https://github.com/baudzhou/WYWEB
下载链接
链接失效反馈官方服务:
资源简介:
WYWEB是一个用于评估古典中文NLP模型的基准,包含九个任务,如句子分类、序列标注、阅读理解和机器翻译。
WYWEB is a benchmark for evaluating classical Chinese NLP models, which comprises nine tasks including sentence classification, sequence labeling, reading comprehension, and machine translation.
创建时间:
2023-05-23
原始信息汇总
WYWEB 数据集概述
数据集介绍
WYWEB 是一个用于评估古文处理的自然语言处理(NLP)基准测试。该数据集包含多个任务,旨在帮助社区更好地理解和处理古文。
任务列表及描述
| 任务 | 训练集 | 开发集 | 测试集 | 描述 | 评估指标 | 来源 |
|---|---|---|---|---|---|---|
| PUNC | 90k | 20k | 20k | 序列标注 | F1 | 权威文本 |
| TLC | 28k | 6k | 6k | 句子分类 | 准确率 | 古文 |
| GJC | 100k | 20k | 20k | 句子分类 | 准确率 | 戴志阁 |
| XuCi | 800 | 200 | 200 | 词相似度 | 准确率 | 考试试卷 |
| WYWRC | 3k | 500 | 500 | 阅读理解 | 准确率 | 考试试卷 |
| IRC | 3k | 1k | 1k | 阅读理解 | 准确率 | 考试试卷 |
| WYWMT | 20k | 3k | 3k | 机器翻译 | BLEU | 在线 |
| GLNER | 80k | 18k | 18k | 序列标注 | F1 | citet{GULIAN2020} |
| FSPC | 3000 | 1000 | 1000 | 句子分类 | 准确率 | THU-FSPC |
模型性能
主要任务性能
| 模型 | 平均 | PUNC | GLNER | GJC | FSPC | TLC | XuCi | WYWRC | IRC |
|---|---|---|---|---|---|---|---|---|---|
| Human | 88.0 | 92.4 | 94.3 | 90.3 | 80.0 | 89.0 | 85.3 | 80.0 | 92.3 |
| DeBERTa-base | 75.9 | 83.3 | 86.7 | 85.2 | 61.1 | 86.7 | 72.4 | 45.1 | 86.7 |
| GuwenBERT-base | 72.9 | 82.5 | 82.8 | 84.8 | 61.3 | 85.1 | 71.7 | 28.0 | 86.8 |
| GuwenBERT-large | 75.6 | 83.1 | 86.1 | 84.9 | 58.5 | 87.6 | 73.4 | 44.4 | 87.8 |
| GuwenBERT-base-fs | 74.6 | 82.9 | 84.8 | 84.2 | 61.0 | 86.7 | 70.0 | 42.1 | 85.3 |
| RoBERTa-CCBC | 74.5 | 82.5 | 84.7 | 84.5 | 59.5 | 85.0 | 73.2 | 40.7 | 86.1 |
| RoBERTa-CCLC | 75.3 | 82.8 | 86.1 | 84.7 | 58.6 | 87.1 | 74.9 | 41.0 | 86.9 |
| SikuBERT | 73.7 | 80.8 | 82.8 | 82.2 | 60.9 | 82.4 | 70.4 | 44.0 | 85.8 |
| SikuRoBERTa | 73.5 | 81.4 | 82.8 | 82.5 | 62.2 | 83.8 | 68.5 | 41.0 | 85.8 |
| RoBERTa-wwm-ext | 72.1 | 78.8 | 79.8 | 81.3 | 59.2 | 78.3 | 71.0 | 42.1 | 86.2 |
WYWMT 任务性能
| 模型 | BLEU | chrF2 | TER | ROUGE-1 | ROUGE-2 | ROUGE-L |
|---|---|---|---|---|---|---|
| Human | 45.6 | 44.2 | 34.4 | 77.4 | 50.7 | 76.2 |
| guwenbert-base | 40.1 | 38.1 | 37.5 | 72.5 | 46.0 | 70.3 |
| guwenbert-large | 38.8 | 37.2 | 38.1 | 70.1 | 43.7 | 67.7 |
| guwenbert-base-fs | 36.3 | 35.2 | 39.2 | 68.3 | 41.2 | 65.7 |
| roberta-CCBC | 39.1 | 37.1 | 36.8 | 71.4 | 44.9 | 69.3 |
| roberta-CCLC | 39.8 | 38.0 | 36.4 | 71.6 | 45.3 | 69.3 |
| SikuBERT | 38.8 | 36.2 | 37.9 | 72.0 | 45.5 | 69.8 |
| SikuRoBERTa | 39.1 | 36.5 | 37.7 | 72.2 | 45.7 | 70.0 |
| DeBERTa-base | 39.5 | 37.8 | 35.9 | 71.9 | 44.2 | 68.7 |
| Roberta-wwm-ext | 38.0 | 35.8 | 39.1 | 69.9 | 43.2 | 66.7 |
如何测试新模型
研究人员可以使用评估工具包,通过几行代码快速评估预训练语言模型。具体步骤如下:
- 在每个任务上测试你的模型。
- 获取最佳开发集分数,使用该模型评估测试集。
- 将测试集结果发送给我们。
- 维护人员验证结果后更新排行榜。
引用
@inproceedings{zhou-etal-2023-wyweb, title = "{WYWEB}: A {NLP} Evaluation Benchmark For Classical {C}hinese", author = "Zhou, Bo and Chen, Qianglong and Wang, Tianyu and Zhong, Xiaomi and Zhang, Yin", booktitle = "Findings of the Association for Computational Linguistics: ACL 2023", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.findings-acl.204", doi = "10.18653/v1/2023.findings-acl.204", pages = "3294--3319" }
搜集汇总
数据集介绍

构建方式
在文言文自然语言处理领域,WYWEB基准的构建遵循了严谨的学术原则与数据采集流程。该数据集通过整合权威古籍文献、考试试题及开源语料,系统性地设计了九项核心任务。构建过程中,团队首先依据文本的时间跨度和文体多样性原则筛选语料,确保覆盖从先秦至清代的各类文献。对于句读、文本分类等任务,采用从《二十四史》、《殆知阁》等高质量典籍中分段抽样的方法,并经过多轮人工校对与专家审核。而对于阅读理解和虚词辨析等任务,则从数千份中学语文试卷中提取题目,经过光学字符识别、文本对齐与纠错后,由古典文献专业人员进行标注与复核,最终形成结构化的评估数据。
使用方法
WYWEB数据集的使用旨在系统评估模型在文言文领域的综合性能。研究者可通过其官方GitHub仓库获取数据集、评估工具包及基线模型代码。典型使用流程包括:首先,利用提供的PyTorch与Transformers脚本加载预处理后的任务数据,并按照标准划分进行训练、验证与测试。对于序列标注与分类任务,可采用基于[CLS]标记或相应词元隐藏状态的分类器进行微调;阅读理解任务需对篇章、问题与选项进行联合编码后评分选择;机器翻译任务则支持序列到序列的生成式评估。评估完成后,结果可提交至在线排行榜进行横向比较。该工具包的设计便于集成各类预训练模型,并支持在Hugging Face模型库中部署,以促进文言文自然语言处理技术的迭代与创新。
背景与挑战
背景概述
WYWEB作为古典中文自然语言处理领域的评估基准,由浙江大学与小鸟AI团队于2023年联合推出,旨在填补该领域长期缺乏标准化评估工具的空白。古典中文作为跨越数千年的文化遗产,承载着丰富的学术与历史价值,然而其与现代中文在语法、词汇及表达方式上的显著差异,使得现有基于现代语料的预训练模型难以有效处理古典文本。该数据集涵盖句子分类、序列标注、阅读理解及机器翻译等九项核心任务,通过系统化设计为模型性能评估提供了全面框架,推动了古典中文计算语言学研究的深入发展。
当前挑战
WYWEB所针对的古典中文自然语言理解面临多重挑战:其一,古典中文语法结构复杂且词汇多义性显著,例如虚词在不同语境中功能各异,增加了模型语义解析的难度;其二,数据资源稀缺且标注成本高昂,需依赖专业学者进行精细校对,以确保语料权威性与准确性。在构建过程中,团队需克服跨时代文本风格差异、文献数字化程度不均以及古今语言对齐困难等问题,同时还需设计兼顾语言学特性与计算可行性的任务体系,以平衡学术严谨性与工程实用性。
常用场景
经典使用场景
在古典中文自然语言处理领域,WYWEB评估基准以其精心设计的九项任务体系,为模型性能提供了全面而严谨的测试平台。该数据集最经典的使用场景在于系统评估预训练语言模型在文言文理解任务上的综合能力,涵盖句子分类、序列标注、阅读理解及机器翻译等多个核心维度。通过模拟真实学术研究中的语言现象,如古文断句、虚词辨析和典籍分类,WYWEB能够有效衡量模型对古典中文语法结构、语义内涵及文化背景的掌握程度,为相关领域的模型优化与比较建立了标准化框架。
解决学术问题
WYWEB基准的构建,主要解决了古典中文自然语言处理研究中长期存在的评估体系缺失问题。传统上,由于文言文与现代汉语在语法、词汇及表达方式上存在显著差异,基于现代汉语训练的模型难以直接迁移至古典文本分析任务。该数据集通过设计针对性的任务,如基于典籍的文本分类、历史时期判定及古文机器翻译,为模型在古典领域的适应性与泛化能力提供了量化评估依据。其意义在于推动了文言文计算语言学研究的规范化发展,促进了跨时代语言理解技术的进步,并为文化遗产的数字化保护与传承提供了关键技术支撑。
实际应用
在实际应用层面,WYWEB数据集为古典文献的智能化处理与知识挖掘提供了重要工具。其任务设计紧密贴合古籍整理、数字人文及教育辅助等现实需求,例如通过自动断句与标点恢复功能,可大幅提升古籍数字化整理的效率;借助文本分类与时间判定模型,能够辅助学者进行文献考据与脉络梳理;而古文机器翻译任务则有助于降低文言文的理解门槛,促进经典文化的普及与传播。这些应用不仅推动了人文研究与信息技术的深度融合,也为传统文化资源的活化利用开辟了新的技术路径。
数据集最近研究
最新研究方向
在古典中文自然语言处理领域,WYWEB数据集的推出标志着对文言文计算研究的系统化评估迈入新阶段。该数据集涵盖句读标注、实体识别、文本分类及阅读理解等九项核心任务,为预训练模型在文言文场景下的性能提供了标准化测试平台。近期研究聚焦于探索跨时代、跨文体的语言表征能力,尤其关注模型对文言文特有语法现象(如虚词辨析、典故理解)的适应性。随着古籍数字化进程加速,该数据集正推动领域内模型架构优化与知识注入技术的创新,为文化遗产的智能解析与传承奠定基础。
相关研究论文
- 1WYWEB: A NLP Evaluation Benchmark For Classical Chinese · 2023年
以上内容由遇见数据集搜集并总结生成



