CCLUE
收藏github2023-08-23 更新2024-05-31 收录
下载链接:
https://github.com/Ethan-yt/CCLUE
下载链接
链接失效反馈官方服务:
资源简介:
CCLUE是一个古文自然语言理解的测评基准,包含多个任务的数据集,如断句和标点、命名实体识别、古文分类、古诗情感分类和文白检索等。
CCLUE is an evaluation benchmark for classical Chinese natural language understanding, encompassing datasets for multiple tasks such as sentence segmentation and punctuation, named entity recognition, classical text classification, sentiment classification of ancient poetry, and classical-to-modern text retrieval.
创建时间:
2021-03-03
原始信息汇总
数据集概述
数据集名称: CCLUE
数据集描述: CCLUE是一个古文自然语言理解的测评基准,包含多个任务对应的数据集、基准模型和评测代码。研究人员可以通过简单的代码快速测评各种预训练语言模型。
任务和数据集详情
| 任务名 | 缩写 | 训练集 | 开发集 | 测试集 | 任务类型 | 评价指标 |
|---|---|---|---|---|---|---|
| 断句和标点 | S&P | 26935 | 4075 | 3992 | 序列标注 | F1 |
| 命名实体识别 | NER | 2566 | 281 | 327 | 序列标注 | F1 |
| 古文分类 | CLS | 160000 | 20000 | 20000 | 文本分类 | Acc |
| 古诗情感分类 | SENT | 16000 | 2000 | 2000 | 文本分类 | Acc |
| 文白检索 | RETR | - | - | 10000 | 文本检索 | Acc |
测评方法
- 快速测评: 无需下载代码本地测评,通过上传模型至Huggingface并申请测评,结果将在3个工作日内回复。
- 本地测评: 需下载数据集和测评代码,安装依赖,准备评测模型,并运行评测代码。评测结果位于
outputs文件夹。
提交结果
测评结果可以提交至CCLUE排行榜,需提供提交单位、模型名称、项目/论文地址、模型权重链接和评测结果。所有结果必须可复现,经过认证后可登陆CCLUE排行榜。
搜集汇总
数据集介绍

构建方式
CCLUE数据集的构建基于古文自然语言理解的多任务测评需求,涵盖了断句和标点、命名实体识别、古文分类、古诗情感分类以及文白检索等代表性任务。每个任务的数据集均经过精心设计,训练集、开发集和测试集的划分确保了模型在不同阶段的有效评估。数据来源广泛,涵盖了古代文献、诗歌等多种文体,确保了数据集的多样性和代表性。
特点
CCLUE数据集的特点在于其多任务测评的全面性,涵盖了古文处理的多个关键领域。每个任务的数据集规模适中,既保证了模型的训练效果,又避免了过大的计算开销。数据集的任务类型多样,包括序列标注、文本分类和文本检索,能够全面评估模型在古文处理中的表现。此外,数据集提供了详细的评测代码和基准模型,便于研究人员快速上手并进行对比实验。
使用方法
使用CCLUE数据集进行测评时,研究人员可以通过两种方式进行:快速测评和本地测评。快速测评允许用户将模型上传至Hugging Face,并通过提交申请快速获得测评结果。本地测评则需要下载数据集和评测代码,安装依赖后运行相应的评测脚本。评测结果将保存在指定文件夹中,用户可以根据需要提交至CCLUE排行榜,经过认证后即可参与排名。评测过程支持多种预训练语言模型,确保了测评的灵活性和广泛适用性。
背景与挑战
背景概述
CCLUE数据集是一个专注于古文自然语言理解的测评基准,由Ethan-yt及其团队开发,旨在为研究人员提供一个全面的评估平台。该数据集涵盖了断句和标点、命名实体识别、古文分类、古诗情感分类以及文白检索等多个任务,每个任务均配备了相应的训练集、开发集和测试集。CCLUE的创建不仅推动了古文自然语言处理技术的发展,还为相关领域的研究提供了宝贵的资源和工具。
当前挑战
CCLUE数据集在古文自然语言理解领域面临的主要挑战包括:首先,古文与现代文在语法、词汇和表达方式上存在显著差异,这增加了模型理解和处理古文的难度;其次,古文语料的稀缺性和多样性使得数据集的构建和标注工作异常复杂;最后,如何设计有效的评测指标和模型以适应古文特有的语言结构和文化背景,也是该领域亟待解决的问题。
常用场景
经典使用场景
CCLUE数据集在古文自然语言处理领域具有广泛的应用,尤其是在断句和标点、命名实体识别、古文分类、古诗情感分类以及文白检索等任务中。研究人员可以通过该数据集快速评估和比较不同预训练语言模型在古文处理任务中的表现,从而推动古文自然语言理解技术的发展。
实际应用
在实际应用中,CCLUE数据集可以用于构建智能古文处理系统,如自动断句和标点工具、古文命名实体识别系统、古文分类器以及古诗情感分析工具。这些系统可以应用于古籍数字化、古文教学辅助、文化遗产保护等领域,极大地提高了古文处理的效率和准确性。
衍生相关工作
CCLUE数据集衍生了许多相关的研究工作,如基于预训练语言模型的古文处理模型优化、古文断句和标点算法的改进、古文命名实体识别技术的提升等。这些工作不仅推动了古文自然语言处理技术的发展,还为其他语言的自然语言处理研究提供了借鉴和参考。
以上内容由遇见数据集搜集并总结生成



