Fùxì
收藏arXiv2025-03-20 更新2025-03-22 收录
下载链接:
https://github.com/cubenlp/FuxiBench
下载链接
链接失效反馈官方服务:
资源简介:
Fùxì是一个全面评估语言模型在古代中文文本理解和生成方面的基准,由华东师范大学计算机科学与技术学院创建。该数据集包含21种不同类型的任务,涵盖了理解和生成两个方面,特别设计的任务类型能评估模型在古代中文方面的独特能力,如诗歌创作、对子完成和文体转换等。数据集内容来源于文学、哲学、历史等多个领域,经过精心筛选和整理,旨在促进古代中文文本处理的研究和发展。
Fùxì is a benchmark for comprehensively evaluating language models' understanding and generation capabilities of ancient Chinese texts, developed by the School of Computer Science and Technology, East China Normal University. This dataset encompasses 21 distinct task types covering both understanding and generation aspects. The specially designed task categories are intended to evaluate the unique capabilities of models in ancient Chinese processing, such as poetry composition, couplet completion, and style transfer. The dataset's content is sourced from multiple fields including literature, philosophy, history and other disciplines, and has undergone rigorous screening and curation, with the aim of promoting research and development in ancient Chinese text processing.
提供机构:
华东师范大学计算机科学与技术学院
创建时间:
2025-03-20
搜集汇总
数据集介绍

构建方式
Fùxì数据集的构建基于高质量的古汉语文本资源,涵盖了文学、哲学、历史等多个领域。数据来源包括互联网资源、预注释数据集以及手动整理的文本。为确保数据的准确性和一致性,研究人员采用了自动化脚本进行数据清洗和去重,并对部分任务进行了人工标注。数据集的构建过程特别注重任务多样性,涵盖了21种不同的任务类型,包括阅读理解、诗歌生成、对联创作等,旨在全面评估模型在古汉语理解和生成方面的能力。
特点
Fùxì数据集的特点在于其任务的多样性和评估的全面性。它不仅包含传统的阅读理解任务,还引入了诗歌生成、对联创作等生成任务,填补了现有基准在古汉语生成能力评估上的空白。此外,数据集还设计了专门的评估指标,结合了基于规则的验证和微调的语言模型评估器,以确保生成文本的语言准确性和文化真实性。数据集的任务设计充分考虑了古汉语的独特语言特征和文化背景,提供了对模型在古汉语处理中的全面评估。
使用方法
Fùxì数据集的使用方法包括对模型在零样本和少样本设置下的评估。用户可以通过提供的任务指令和输入,测试模型在古汉语理解和生成任务中的表现。数据集支持多种任务类型,如阅读理解、诗歌生成、对联创作等,用户可以根据具体需求选择相应的任务进行评估。评估过程中,数据集提供了详细的评估指标和基准结果,用户可以通过对比基准结果,分析模型在古汉语处理中的优势和不足。此外,数据集还提供了评估工具包,便于用户进行自动化评估和结果分析。
背景与挑战
背景概述
Fùxì数据集由华东师范大学计算机科学与技术学院的研究团队于2025年提出,旨在评估大语言模型在古汉语文本理解与生成任务中的表现。古汉语作为东亚地区两千多年来的书面语言,承载了丰富的文化与历史遗产,但其与现代汉语的差异使得自然语言处理技术面临独特挑战。Fùxì数据集通过21项多样化任务,涵盖了古汉语的阅读理解、诗歌创作、对联生成等多个方面,填补了现有基准在古汉语生成能力评估上的空白。该数据集的推出不仅推动了古汉语文本处理技术的发展,也为文化遗产的数字化保存与传播提供了重要支持。
当前挑战
Fùxì数据集在构建与应用过程中面临多重挑战。首先,古汉语的语法、词汇与现代汉语差异显著,模型在生成任务中难以保持古汉语的文体与文化准确性。其次,古汉语文本的生成任务要求模型具备深厚的文化背景知识,例如诗歌创作需遵循严格的格律与意境要求,这对模型的生成能力提出了极高要求。此外,数据集的构建过程中,如何设计有效的评估指标以兼顾语言学准确性与文化真实性也是一大难题。现有的自动评估方法如BLEU等难以全面捕捉古汉语生成的复杂性,而人工评估则成本高昂且难以扩展。这些挑战共同构成了Fùxì数据集在推动古汉语文本处理技术发展中的核心难题。
常用场景
经典使用场景
Fùxì数据集主要用于评估大语言模型在古文理解和生成任务中的表现。其经典使用场景包括古文阅读理解、诗歌生成、对联创作以及古文翻译等任务。通过这些任务,研究者能够全面评估模型在古文处理中的能力,尤其是在理解古文语义、文化背景以及生成符合古典文学风格文本方面的表现。
衍生相关工作
Fùxì数据集衍生了许多相关研究工作,尤其是在古文生成和评估领域。基于Fùxì的研究工作包括改进古文生成模型、开发新的古文评估指标,以及探索古文与现代汉语之间的跨时代翻译。此外,Fùxì还推动了古文处理领域的数据集扩展和任务多样化,促进了古文处理技术的进一步发展。
数据集最近研究
最新研究方向
近年来,Fùxì数据集在古汉语文本处理领域的研究方向主要集中在语言模型的理解与生成能力评估上。该数据集通过21项多样化任务,全面评估了模型在古汉语文本处理中的表现,尤其是在诗歌创作、对联生成等生成任务中的表现。研究表明,尽管现代语言模型在理解任务上表现优异,但在生成任务上仍存在显著差距,尤其是在需要深厚文化知识和古典格式要求的任务中。Fùxì的引入不仅填补了现有基准在古汉语生成能力评估上的空白,还为未来模型的发展提供了重要参考。此外,该数据集还推动了古汉语文本生成评估指标的创新,结合规则验证与微调的语言模型评估方法,进一步提升了评估的准确性与效率。
相关研究论文
- 1Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation华东师范大学计算机科学与技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成



