ClassicalModernCorpus

github2024-03-21 更新2024-05-31 收录

下载链接：

https://github.com/Hellohistory/ClassicalModernCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该项目收集和制作古代汉语和现代汉语对照语料数据集，用于机器学习文白翻译。数据集包含文白对照的两个字段，其中`with_punctuation`字段为原始文本，`translation`字段为翻译文本，`name`字段为原始文本的出处。

This project collects and creates a parallel corpus dataset of classical and modern Chinese for machine learning-based literary translation. The dataset contains two fields for classical-modern Chinese comparison: the `with_punctuation` field represents the original text, the `translation` field contains the translated text, and the `name` field indicates the source of the original text.

创建时间：

2023-05-30

原始信息汇总

数据集概述

项目目的

该项目旨在通过简单加工现有的原始数据，创建适合机器学习文白翻译的数据集。

项目结构

1. 项目目录结构

项目创建日期作为文件夹名。

2. 项目数据结构

示例数据结构如下： json { "name": "魏书_列传_卷七", "with_punctuation": "景穆皇帝十四男。", "translation": "景穆皇帝有十四个儿子。" }
包含三个字段：name（原始文本出处）、with_punctuation（原始文本）、translation（翻译文本）。

数据来源

数据来源于以下两个GitHub仓库：
- https://github.com/BangBOOM/Classical-Chinese
- https://github.com/NiuTrans/Classical-Modern

更新历史

2023-05-30：项目创建，上传两个数据集。
Date0524：包含26个JSON文件，总大小242Mb。
Date0525：包含4670个JSON文件，总大小99.4Mb。

下载地址

百度网盘：https://pan.baidu.com/s/1gpabFt_DrfZfWunQ0RIKiw?pwd=40kc
Google云端硬盘：https://drive.google.com/drive/folders/1okDzEdWuK9pGydHKik6wrB_TpCi2S60g?usp=sharing

搜集汇总

数据集介绍

构建方式

ClassicalModernCorpus数据集的构建基于现有的原始数据，通过简单的加工处理，使其适用于机器学习中的文白翻译任务。数据集以JSON格式存储，每个条目包含三个字段：`name`表示原始文本的出处，`with_punctuation`为带有标点的原始文本，`translation`则为对应的现代汉语翻译文本。数据来源主要参考了GitHub上的两个开源项目，处理过程中遵循了特定的处理原则和脚本，确保了数据的规范性和一致性。

特点

ClassicalModernCorpus数据集的特点在于其文白对照的结构，为研究古典汉语与现代汉语之间的翻译提供了丰富的语料资源。数据集涵盖了大量的古典文献，如《魏书》等，每个条目均包含原始文本及其对应的现代汉语翻译，便于进行对比分析。此外，数据集的规模较大，Date0524和Date0525两个子集分别包含26个和4670个JSON文件，总大小分别为242Mb和99.4Mb，为深度学习模型的训练提供了充足的数据支持。

使用方法

ClassicalModernCorpus数据集的使用方法较为灵活，用户可以通过下载百度网盘或Google云端硬盘中的文件获取数据。数据集以JSON格式存储，便于通过编程语言如Python进行解析和处理。用户可以直接利用`with_punctuation`和`translation`字段进行文白翻译模型的训练和评估，或通过`name`字段追溯原始文本的出处，进行更深入的文献研究。该数据集适用于自然语言处理、机器翻译以及古典文献研究等多个领域。

背景与挑战

背景概述

ClassicalModernCorpus数据集于2023年5月30日由相关研究人员创建，旨在为机器学习领域提供文白翻译的优质数据资源。该数据集主要基于现有的古典文献与现代汉语翻译对照文本，经过系统化处理，形成了包含原始文本与翻译文本的对照结构。数据来源包括GitHub上的Classical-Chinese和Classical-Modern项目，涵盖了丰富的古典文献内容。该数据集的构建为自然语言处理领域，特别是古典文献的自动翻译与理解，提供了重要的数据支持，推动了相关技术的研究与应用。

当前挑战

ClassicalModernCorpus数据集在构建过程中面临多重挑战。首先，古典文献的语言结构与现代汉语存在显著差异，如何准确实现文白翻译成为核心难题。其次，数据来源的多样性与复杂性要求研究人员在数据清洗与对齐过程中投入大量精力，以确保数据的准确性与一致性。此外，数据规模庞大，处理与存储的技术要求较高，如何在保证数据质量的同时高效完成数据处理任务，也是构建过程中的一大挑战。这些问题的解决对于提升文白翻译模型的性能具有重要意义。

常用场景

经典使用场景

ClassicalModernCorpus数据集在文白翻译领域具有广泛的应用，特别是在机器学习和自然语言处理的研究中。该数据集通过提供文白对照的文本，为研究者提供了一个标准化的训练和测试平台，使得文白翻译模型的开发与优化成为可能。其结构化的数据格式和丰富的文本内容，使得该数据集成为文白翻译任务中的经典选择。

实际应用

在实际应用中，ClassicalModernCorpus数据集被广泛用于古籍数字化、文化传承以及教育领域。通过该数据集，研究者能够开发出高效的文白翻译工具，帮助普通读者理解文言文经典著作。同时，该数据集也为教育机构提供了丰富的教学资源，促进了文言文教学的现代化和普及化。

衍生相关工作

基于ClassicalModernCorpus数据集，研究者们开发了多种文白翻译模型和工具，如基于神经网络的翻译系统和跨语言信息检索平台。这些工作不仅提升了文白翻译的自动化水平，还为古籍数字化和文化传承提供了技术支持。此外，该数据集还激发了更多关于文言文与现代汉语对比研究的学术讨论，推动了相关领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集