Chinese Classical Poetry Matching Dataset (CCPM)

Name: Chinese Classical Poetry Matching Dataset (CCPM)
Creator: 清华大学
Published: 2021-06-04 00:49:03
License: 暂无描述

arXiv2021-06-04 更新2024-06-21 收录

下载链接：

https://github.com/THUNLP-AIPoet/CCPM

下载链接

链接失效反馈

官方服务：

资源简介：

中国古典诗歌匹配数据集（CCPM）是由清华大学计算机科学与技术系的研究团队创建的，旨在通过诗歌匹配任务评估模型对古典中文诗歌的语义理解能力。该数据集包含27,218对中英双语平行数据，涵盖了古典诗歌及其现代中文翻译。创建过程中，研究团队首先从网络收集了6,000段古汉语及其对应的现代中文翻译，然后通过特定的格式过滤和行分割处理，确保数据集的质量和适用性。CCPM数据集的应用领域主要集中在自动分析和生成模型对古典中文诗歌的语义理解，有助于提升相关技术在诗歌创作和分析中的应用。

The Chinese Classical Poetry Matching (CCPM) dataset was developed by a research team from the Department of Computer Science and Technology, Tsinghua University, aimed at evaluating models' semantic understanding of classical Chinese poetry through poetry matching tasks. This dataset contains 27,218 pairs of Chinese-English bilingual parallel data, covering classical Chinese poems and their modern Chinese translations. During the construction of CCPM, the research team first collected 6,000 pieces of classical Chinese poetry and their corresponding modern Chinese translations from the internet, then performed specific format filtering and line segmentation processing to ensure the dataset's quality and applicability. The main application scenarios of the CCPM dataset focus on evaluating the semantic comprehension of classical Chinese poetry by automatic analysis and generation models, which helps to advance the application of related technologies in poetry creation and analysis.

提供机构：

清华大学

创建时间：

2021-06-04

搜集汇总

数据集介绍

构建方式

在古典诗歌语义理解的研究领域，构建高质量的数据集是推动模型深入理解诗歌内涵的关键。CCPM数据集的构建始于从网络资源中收集古典诗歌与现代汉语翻译的平行语料，经过严格的格式筛选，仅保留五言与七言这两种主流诗歌形式。随后，通过基于预训练模型BERT-CCPoem的语义相似度计算，从大规模诗歌语料库中检索与正确诗句高度相似的干扰项，并结合最长公共子序列算法进行重排序，最终形成包含翻译与四个候选诗句的匹配对，确保了数据在语义层面的挑战性与多样性。

使用方法

该数据集主要用于评估模型在古典诗歌语义匹配任务上的性能，用户可将现代汉语翻译作为输入，要求模型从四个候选诗句中选出正确匹配项。典型的使用方法包括：以BERT等预训练语言模型为基础，设计如BERT-Cls的编码分类架构或BERT-Match的句子匹配架构，通过微调使模型学习翻译与诗句间的语义关联。在训练过程中，采用准确率作为核心评估指标，优化模型参数以提升其语义判别能力。此外，数据集也可服务于诗歌生成系统的语义相关性改进，或作为跨语言语义理解研究的桥梁，促进古典诗歌分析与生成技术的融合发展。

背景与挑战

背景概述

在自然语言处理领域，古典诗歌的自动理解与生成一直是富有挑战性的研究方向。2021年，清华大学人工智能研究所的李文浩、孙茂松等学者共同构建了中文古典诗歌匹配数据集（CCPM），旨在评估模型对诗歌深层语义的把握能力。该数据集聚焦于诗歌匹配任务，即根据现代汉语译文从候选诗句中识别对应的原诗句，核心研究问题在于量化模型对诗歌语义的建模水平。CCPM的发布为诗歌语义分析提供了首个专门基准，推动了古典诗歌计算研究从风格、情感等表层特征向深层语义理解的演进，对文化遗产的数字化传承与智能化处理具有显著影响力。

当前挑战

CCPM数据集致力于解决古典诗歌语义理解这一核心领域问题，其挑战在于诗歌语言高度凝练、意象模糊，且古今汉语之间存在语义鸿沟，使得模型难以准确捕捉诗句的深层含义。在构建过程中，研究团队面临多重挑战：首先，需从网络资源中提取并清洗古典诗歌与现代译文的平行语料，确保数据的准确性与对齐质量；其次，为设计具有混淆性的负样本，需利用预训练模型与相似性检索技术，从海量诗歌库中筛选语义相近但非匹配的诗句，以提升任务的判别难度。这些挑战共同塑造了数据集的复杂性与研究价值。

常用场景

经典使用场景

在自然语言处理领域，诗歌语义理解一直是富有挑战性的研究方向。CCPM数据集通过构建古典诗歌与现代汉语翻译的匹配任务，为评估模型对诗歌深层语义的捕捉能力提供了标准化的测试平台。该数据集要求模型从四行候选古诗中，选出与现代汉语翻译最匹配的原句，这一设计巧妙地模拟了人类理解诗歌时跨越古今语言障碍的认知过程，成为衡量语义表示模型性能的经典场景。

解决学术问题

CCPM数据集主要解决了诗歌计算研究中语义评估缺失的核心问题。传统研究多聚焦于诗歌的风格、情感等表层特征，而该数据集首次将深度语义理解纳入量化评估框架，通过构建高质量的负样本检索机制，有效区分了语义相近但内涵微妙的诗句差异。这不仅推动了诗歌分析模型从形式特征向语义内涵的深化，还为生成模型提供了语义相关性评估的基准，促进了古典诗歌与现代语言之间的语义桥梁构建。

实际应用

在实际应用层面，CCPM数据集为智能教育、文化传承等领域提供了技术支撑。基于该数据集训练的模型可应用于古典诗歌辅助教学系统，帮助学生通过现代汉语理解古诗意境；在数字人文领域，它能提升古籍自动翻译的准确性，促进文化遗产的数字化传播；同时，该数据集也为诗歌创作辅助工具提供了语义核验功能，确保生成内容在保持格律美感的同时不偏离核心语义表达。

数据集最近研究