CLGC

github2023-03-23 更新2024-05-31 收录

下载链接：

https://github.com/blcunlp/CLGC

下载链接

链接失效反馈

官方服务：

资源简介：

CLGC是一个包含10,000篇小说和散文文本的中文文学优雅度评估语料库，总字数超过185万。该语料库提供了多级标注，包括文学优雅度级别、句子类别和修辞手法类型。

CLGC is a Chinese literary elegance evaluation corpus comprising 10,000 pieces of novels and prose texts, with a total word count exceeding 1.85 million. This corpus provides multi-level annotations, including literary elegance levels, sentence categories, and types of rhetorical devices.

创建时间：

2022-01-10

原始信息汇总

数据集概述

数据集名称

CLGC: A Corpus for Chinese Literary Grace Evaluation

数据集内容

文本来源：包含10,000篇来自小说和散文的文本。
文本规模：总计超过1.85百万个字符。
文本分类：分为三个等级，其中64%为一级文本（6,448篇，1,192,144字符），19%为二级文本（1959篇，369,946字符），15%为三级文本（1593篇，294,748字符）。

数据集特点

多级标注：每篇文本均提供多级标注，包括文学优雅等级、句子类别和修辞手法类型。
标注细节：
- 文学优雅等级：由多位标注者评定，结果以0至1的分数表示，如1（所有标注者选择1），0.8（四位选择1，一位选择0）等。
- 句子类别：包括陈述句（C）、疑问句（Y）、感叹句（G）和祈使句（Q）。
- 修辞手法：包括比喻（BY）、比拟（BN）、反复（FF）、排比（PB）、对偶（DO）、通感（TG）和引用（YY）等。

数据集格式

文件格式：CSV格式，文件名为“语言风格+文学优雅标签+编号”，如swlevel01。
列信息：
- 第一列为文件名。
- 第二列为文本句子，每句一行。
- 后续列为句子类别标签、跨句修辞手法标签、修辞手法计数及修辞手法类型标签。

数据集统计

基本统计信息：提供了每个等级的文本数量、字符数、词数、句子数以及各类句子及修辞手法的详细统计。

数据集文件

原始数据文件：名为“allcorpus”，保存了原始的文本数据。

结论

CLGC数据集是一个专门用于中文文学优雅评估的语料库，提供了丰富的文本数据和详细的标注信息，适用于文学分析和机器学习模型的训练与评估。

搜集汇总

数据集介绍

构建方式

CLGC数据集的构建基于对中文文学作品的深度分析与标注，涵盖了10,000篇来自小说和散文的文本，总计超过185万词汇。数据集通过多层次的标注体系，包括文学优雅度等级、句子类别以及修辞手法类型，确保了数据的多样性与丰富性。标注过程由多位专家共同完成，确保了标注的一致性与准确性。

特点

CLGC数据集的特点在于其多层次、多维度的标注体系。数据集不仅标注了文本的文学优雅度等级，还详细标注了句子类别（如陈述句、疑问句等）和修辞手法（如比喻、排比等）。这种精细的标注方式为研究者提供了丰富的语言学特征，便于深入分析文学文本的优雅度与其语言特征之间的关系。

使用方法

CLGC数据集的使用方法主要包括文本分类与文学优雅度评估。研究者可以通过机器学习算法（如SVM、TextCNN等）对数据集进行训练，构建文学优雅度评估模型。数据集的多层次标注为模型训练提供了丰富的特征，能够有效提升模型的分类性能。此外，数据集还可用于语言学研究中，分析不同修辞手法对文学优雅度的影响。

背景与挑战

背景概述

CLGC（Chinese Literary Grace Evaluation Corpus）是由李毅、于东和刘鹏远等研究人员于2022年构建的一个专门用于中文文学美感评估的语料库。该语料库包含了来自小说和散文的10,000篇文本，总计超过185万个词汇，涵盖了三个不同美感等级的文本。CLGC的构建旨在深入探讨细粒度特征（如语义信息、词性和修辞手法等）与文学美感等级之间的关联，并提出了文学美感评估（LGE）任务，旨在根据文本内容对文学美感进行综合评估。该语料库的发布为中文文学研究、自然语言处理以及文本风格分析等领域提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

CLGC数据集在构建和应用过程中面临多重挑战。首先，文学美感的评估具有高度主观性，不同读者对同一文本的美感评价可能存在显著差异，因此如何确保标注的一致性和客观性是一个核心问题。其次，语料库的构建需要对大量文本进行多层次的标注，包括美感等级、句子类别和修辞手法等，这不仅需要大量的人工标注工作，还要求标注者具备较高的文学素养和语言学知识。此外，如何从文本中提取有效的特征以支持文学美感的自动评估，也是一个技术上的难题。尽管初步的分类实验取得了79.71%的加权平均F1分数，但进一步提升模型的准确性和泛化能力仍需进一步研究。

常用场景

经典使用场景

CLGC数据集在中文文学美感评估领域具有广泛的应用场景。研究者可以利用该数据集中的多层次标注信息，深入分析文本的文学美感水平、句子类别以及修辞手法类型。通过机器学习算法，如支持向量机（SVM）和文本卷积神经网络（TextCNN），研究者能够构建高效的文学美感评估模型，从而为中文文学作品的自动评价提供科学依据。

衍生相关工作

CLGC数据集的发布催生了一系列相关研究工作。例如，基于该数据集的文学美感评估任务（LGE）已成为自然语言处理领域的热点研究方向。研究者们通过引入深度学习模型和迁移学习技术，进一步提升了文学美感评估的准确性和泛化能力。此外，该数据集还被用于跨语言文学美感对比研究，为不同语言文学作品的风格分析提供了新的视角。这些衍生工作不仅丰富了中文文学研究的内容，也推动了自然语言处理技术的创新与发展。

数据集最近研究