five

CLGC

收藏
github2023-03-23 更新2024-05-31 收录
下载链接:
https://github.com/blcunlp/CLGC
下载链接
链接失效反馈
官方服务:
资源简介:
CLGC是一个包含10,000篇小说和散文文本的中文文学优雅度评估语料库,总字数超过185万。该语料库提供了多级标注,包括文学优雅度级别、句子类别和修辞手法类型。

CLGC is a Chinese literary elegance evaluation corpus comprising 10,000 pieces of novels and prose texts, with a total word count exceeding 1.85 million. This corpus provides multi-level annotations, including literary elegance levels, sentence categories, and types of rhetorical devices.
创建时间:
2022-01-10
原始信息汇总

数据集概述

数据集名称

CLGC: A Corpus for Chinese Literary Grace Evaluation

数据集内容

  • 文本来源:包含10,000篇来自小说和散文的文本。
  • 文本规模:总计超过1.85百万个字符。
  • 文本分类:分为三个等级,其中64%为一级文本(6,448篇,1,192,144字符),19%为二级文本(1959篇,369,946字符),15%为三级文本(1593篇,294,748字符)。

数据集特点

  • 多级标注:每篇文本均提供多级标注,包括文学优雅等级、句子类别和修辞手法类型。
  • 标注细节
    • 文学优雅等级:由多位标注者评定,结果以0至1的分数表示,如1(所有标注者选择1),0.8(四位选择1,一位选择0)等。
    • 句子类别:包括陈述句(C)、疑问句(Y)、感叹句(G)和祈使句(Q)。
    • 修辞手法:包括比喻(BY)、比拟(BN)、反复(FF)、排比(PB)、对偶(DO)、通感(TG)和引用(YY)等。

数据集格式

  • 文件格式:CSV格式,文件名为“语言风格+文学优雅标签+编号”,如swlevel01。
  • 列信息
    • 第一列为文件名。
    • 第二列为文本句子,每句一行。
    • 后续列为句子类别标签、跨句修辞手法标签、修辞手法计数及修辞手法类型标签。

数据集统计

  • 基本统计信息:提供了每个等级的文本数量、字符数、词数、句子数以及各类句子及修辞手法的详细统计。

数据集文件

  • 原始数据文件:名为“allcorpus”,保存了原始的文本数据。

结论

CLGC数据集是一个专门用于中文文学优雅评估的语料库,提供了丰富的文本数据和详细的标注信息,适用于文学分析和机器学习模型的训练与评估。

搜集汇总
数据集介绍
main_image_url
构建方式
CLGC数据集的构建基于对中文文学作品的深度分析与标注,涵盖了10,000篇来自小说和散文的文本,总计超过185万词汇。数据集通过多层次的标注体系,包括文学优雅度等级、句子类别以及修辞手法类型,确保了数据的多样性与丰富性。标注过程由多位专家共同完成,确保了标注的一致性与准确性。
特点
CLGC数据集的特点在于其多层次、多维度的标注体系。数据集不仅标注了文本的文学优雅度等级,还详细标注了句子类别(如陈述句、疑问句等)和修辞手法(如比喻、排比等)。这种精细的标注方式为研究者提供了丰富的语言学特征,便于深入分析文学文本的优雅度与其语言特征之间的关系。
使用方法
CLGC数据集的使用方法主要包括文本分类与文学优雅度评估。研究者可以通过机器学习算法(如SVM、TextCNN等)对数据集进行训练,构建文学优雅度评估模型。数据集的多层次标注为模型训练提供了丰富的特征,能够有效提升模型的分类性能。此外,数据集还可用于语言学研究中,分析不同修辞手法对文学优雅度的影响。
背景与挑战
背景概述
CLGC(Chinese Literary Grace Evaluation Corpus)是由李毅、于东和刘鹏远等研究人员于2022年构建的一个专门用于中文文学美感评估的语料库。该语料库包含了来自小说和散文的10,000篇文本,总计超过185万个词汇,涵盖了三个不同美感等级的文本。CLGC的构建旨在深入探讨细粒度特征(如语义信息、词性和修辞手法等)与文学美感等级之间的关联,并提出了文学美感评估(LGE)任务,旨在根据文本内容对文学美感进行综合评估。该语料库的发布为中文文学研究、自然语言处理以及文本风格分析等领域提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
CLGC数据集在构建和应用过程中面临多重挑战。首先,文学美感的评估具有高度主观性,不同读者对同一文本的美感评价可能存在显著差异,因此如何确保标注的一致性和客观性是一个核心问题。其次,语料库的构建需要对大量文本进行多层次的标注,包括美感等级、句子类别和修辞手法等,这不仅需要大量的人工标注工作,还要求标注者具备较高的文学素养和语言学知识。此外,如何从文本中提取有效的特征以支持文学美感的自动评估,也是一个技术上的难题。尽管初步的分类实验取得了79.71%的加权平均F1分数,但进一步提升模型的准确性和泛化能力仍需进一步研究。
常用场景
经典使用场景
CLGC数据集在中文文学美感评估领域具有广泛的应用场景。研究者可以利用该数据集中的多层次标注信息,深入分析文本的文学美感水平、句子类别以及修辞手法类型。通过机器学习算法,如支持向量机(SVM)和文本卷积神经网络(TextCNN),研究者能够构建高效的文学美感评估模型,从而为中文文学作品的自动评价提供科学依据。
衍生相关工作
CLGC数据集的发布催生了一系列相关研究工作。例如,基于该数据集的文学美感评估任务(LGE)已成为自然语言处理领域的热点研究方向。研究者们通过引入深度学习模型和迁移学习技术,进一步提升了文学美感评估的准确性和泛化能力。此外,该数据集还被用于跨语言文学美感对比研究,为不同语言文学作品的风格分析提供了新的视角。这些衍生工作不仅丰富了中文文学研究的内容,也推动了自然语言处理技术的创新与发展。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的飞速发展,中文文学美感评估(LGE)逐渐成为研究热点。CLGC数据集作为首个专注于中文文学美感评估的语料库,为研究者提供了丰富的多层级标注数据,涵盖了文学美感等级、句子类别及修辞类型等关键信息。基于该数据集,研究者们深入探讨了语义信息、词性及修辞手法等细粒度特征与文学美感等级之间的关联性,并提出了全新的文学美感评估任务。通过机器学习算法(如SVM、TextCNN)构建的分类模型,初步实验结果显示加权平均F1分数达到79.71%,验证了该数据集在文学美感评估任务中的有效性。这一研究不仅推动了中文文学计算领域的发展,也为人工智能在文学创作与评价中的应用提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作