CMRED

github2023-06-09 更新2024-05-31 收录

下载链接：

https://github.com/blcunlp/CMRED

下载链接

链接失效反馈

官方服务：

资源简介：

中文篇章多维度阅读体验数据集，用于量化研究大规模语言模型增强的中文篇章多维度阅读体验。

Chinese Text Multidimensional Reading Experience Dataset, designed for quantitative research on the enhanced multidimensional reading experience of Chinese texts through large-scale language models.

创建时间：

2023-06-09

原始信息汇总

CMRED 数据集概述

数据集名称

CMRED：中文篇章多维度阅读体验数据集

数据集描述

该数据集用于研究中文篇章的多维度阅读体验，包括理解性体验、文采性体验、道德性体验、思维性体验和情感性体验。

维度描述

理解性体验：读者在阅读过程中体会到的文本难易程度。
文采性体验：读者在阅读该文本过程中是否体验到了文采之美。
道德性体验：对该文本的道德极性的直观感受。
思维性体验：文本中是否引发读者有关哲思、道理等的思考。
情感性体验：读者对该文本的情感强度的直观感受。

数据集格式

文件名：CMRED.json
数据结构：
- 第一列：文本编号
- 第二列：文本内容
- 第三列：理解性体验
- 第四列：道德性体验
- 第五列：思维性体验
- 第六列：情感性体验

示例数据

pid	text	comp	lit	mor	cog	emo
0336-5-042	在埃及首都开罗西南面……的结晶。	1	0	1	0	0

搜集汇总

数据集介绍

构建方式

CMRED数据集的构建基于大规模语言模型，旨在量化中文篇章的多维度阅读体验。研究团队通过收集大量中文文本，并结合人工标注，对文本的理解性、文采性、道德性、思维性和情感性体验进行了细致的量化分析。数据集的构建过程注重文本的多样性和代表性，确保涵盖不同领域和风格的文本，以全面反映中文阅读体验的多维度特征。

特点

CMRED数据集的特点在于其多维度的量化指标，涵盖了理解性、文采性、道德性、思维性和情感性五个关键维度。每个维度均通过人工标注进行量化，确保了数据的准确性和可靠性。此外，数据集的文本来源广泛，涵盖了不同领域和风格的篇章，能够为研究者提供丰富的研究素材，助力中文阅读体验的深入分析和模型优化。

使用方法

使用CMRED数据集时，研究者可通过加载CMRED.json文件获取文本及其对应的多维度阅读体验评分。每行数据包含文本编号、文本内容以及五个维度的评分，便于直接用于模型训练或分析。研究者可根据需求选择特定维度进行深入研究，或结合大规模语言模型进行多维度阅读体验的预测与优化。数据集的结构清晰，易于集成到各类自然语言处理任务中。

背景与挑战

背景概述

CMRED数据集，即中文篇章多维度阅读体验数据集，由大规模语言模型增强的中文篇章多维度阅读体验量化研究团队开发。该数据集旨在量化中文文本的多维度阅读体验，包括理解性、文采性、道德性、思维性和情感性五个维度。通过这一数据集，研究人员能够深入探讨中文文本在读者心中引发的复杂情感和认知反应，从而推动自然语言处理领域在文本理解和情感分析方面的进步。

当前挑战

CMRED数据集面临的挑战主要集中在两个方面。首先，量化阅读体验的多维度性本身具有高度主观性，如何确保标注的一致性和准确性是一个技术难题。其次，构建过程中需要处理大量中文文本，并对其进行细致的多维标注，这不仅要求标注者具备深厚的语言理解能力，还需要高效的标注工具和方法来支持大规模数据处理。这些挑战对数据集的构建和应用提出了高要求，同时也为相关领域的研究提供了新的视角和挑战。

常用场景

经典使用场景

CMRED数据集广泛应用于中文文本的多维度阅读体验研究中，尤其是在评估大规模语言模型对文本理解、文采、道德、思维和情感体验的影响方面。研究者通过该数据集能够量化分析不同文本特征对读者体验的具体影响，从而优化文本生成和理解模型。

衍生相关工作

基于CMRED数据集，研究者们开展了多项经典工作，如开发了基于大规模语言模型的文本阅读体验预测模型，提出了多维度阅读体验的量化评估方法，并探索了文本特征与读者体验之间的复杂关系。这些工作不仅丰富了自然语言处理领域的研究内容，也为相关应用提供了理论支持和技术基础。

数据集最近研究