文言文（古文）- 现代文平行语料

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/NiuTrans/Classical-Modern

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个非常全的文言文（古文）- 现代文平行语料，基本涵盖了大部分经典古籍著作。从文学角度出发，本项目将所有古文原文整理至文件夹 `古文原文` 中，并对每本古籍，按篇章/章节进行划分与展示，正文部分存于各章节下的 `text.txt` 中，例如 `论语/学而篇/text.txt` ，`孟子/梁惠王章句上/第一节/text.txt` 。对于平行数据，本项目整理至文件夹 `双语数据` 中，这些双语数据是以句子级别为单位进行划分，本项目提供了原文、译文、双语三种数据格式，例如：`论语/学而篇/source.txt` 、 `论语/学而篇/target.txt` 、 `论语/学而篇/bitext.txt` 。注：所有数据均按行保留了古文原文的相对顺序，即数据非打乱。

This is a comprehensive parallel corpus of classical Chinese (ancient texts) and modern Chinese, covering most of the classic ancient books. From a literary perspective, this project organizes all the original ancient texts into the folder `古文原文`, and for each ancient book, it is divided and displayed by chapters/sections, with the main text stored in `text.txt` under each section, such as `论语/学而篇/text.txt`, `孟子/梁惠王章句上/第一节/text.txt`. For the parallel data, this project organizes it into the folder `双语数据`, where the bilingual data is divided at the sentence level. The project provides three data formats: original text, translated text, and bilingual text, such as `论语/学而篇/source.txt`, `论语/学而篇/target.txt`, `论语/学而篇/bitext.txt`. Note: All data retains the relative order of the original ancient texts by line, meaning the data is not shuffled.

创建时间：

2022-01-11

原始信息汇总

文言文（古文）- 现代文平行语料概述

数据集结构

古文原文：包含327本书籍，按篇章/章节划分，正文存于各章节下的 text.txt 文件中。
双语数据：包含97本书籍，提供原文、译文、双语三种数据格式，以句子级别对齐，共计972467个句对。

数据特点

数据来源于互联网，经过处理后形成句子级别对齐的双语数据。
采用归一化编辑距离算法与长度比指标进行核心对齐。
双语数据文件夹中的古文数据量少于古文原文文件夹，因部分古文无译文或译文残缺。

统计信息

古文原文包含327本书籍。
双语数据包含97本书籍，共计972467个句对。

数据来源与声明

所有数据均注明出处，详见各书目下的 数据来源.txt 文件。
原始数据的最终解释权归相关数据来源方所有。

更新历史

v2.0（2023年3月）：重新整理数据，保留详尽的原始数据信息，并注明出处。
v1.0（2022年2月）：数据的初始整理。

搜集汇总

数据集介绍

构建方式

该文言文-现代文平行语料库的构建过程严谨而系统。首先，从互联网获取篇章级对齐的双语文本，随后通过自动化脚本进行分句与对齐处理，最终形成句子级别的平行语料。对齐过程中，采用了归一化编辑距离算法与长度比指标，确保了句子对齐的准确性。此外，所有数据均按行保留了古文原文的相对顺序，确保了数据的连续性与一致性。

使用方法

该数据集适用于多种自然语言处理任务，如机器翻译、文本对齐及古文理解等。用户可直接访问 `古文原文` 文件夹获取原始古文，或使用 `双语数据` 文件夹中的句子级别对齐数据。数据格式清晰，提供了原文、译文及双语对照三种形式，便于不同研究场景下的应用。此外，项目还提供了数据处理脚本及复现过程，方便研究者进行进一步的分析与处理。

背景与挑战

背景概述

文言文（古文）- 现代文平行语料数据集是由谈修泽、罗应峰等研究人员于2022年2月首次整理发布，并在2023年3月进行了版本更新。该数据集旨在为古文与现代文之间的翻译与理解提供丰富的资源，涵盖了327本古籍著作，其中97本书籍的双语数据以句子级别对齐，共计972467个句对。该数据集的构建不仅促进了古文翻译技术的发展，也为语言学、文学研究等领域提供了宝贵的研究材料。通过归一化编辑距离算法与长度比指标，研究人员成功实现了篇章级对齐到句子级对齐的转换，极大地提升了数据的使用价值。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，古文与现代文之间的语言结构差异显著，导致对齐难度较大；其次，部分古文缺乏对应的现代文译文，或译文存在残缺，限制了双语数据的完整性。此外，数据来源的多样性和复杂性也增加了数据清洗和处理的难度。尽管如此，通过采用先进的对齐算法和细致的数据处理流程，研究人员成功克服了这些挑战，为古文与现代文的研究提供了高质量的平行语料。

常用场景

经典使用场景

文言文（古文）- 现代文平行语料数据集的经典使用场景主要体现在自然语言处理领域，尤其是在机器翻译和语言对比研究中。该数据集通过提供句子级别的古文与现代文对齐数据，为研究者提供了一个高质量的训练和测试平台，用于开发和评估古文到现代文的翻译模型。此外，该数据集还可用于语言学研究，帮助分析古文与现代文之间的语法、词汇和语义差异，从而深化对汉语语言演变规律的理解。

解决学术问题

该数据集解决了在自然语言处理领域中，古文与现代文之间缺乏高质量平行语料的学术问题。通过提供大规模、句子级别对齐的双语数据，研究者能够更有效地训练和评估机器翻译模型，推动古文翻译技术的进步。同时，该数据集也为语言学研究提供了宝贵的资源，有助于揭示汉语语言的演变规律和翻译策略，对语言学理论的发展具有重要意义。

实际应用

在实际应用中，文言文（古文）- 现代文平行语料数据集可广泛应用于教育、文化和科技领域。例如，在教育领域，该数据集可用于开发古文学习辅助工具，帮助学生更轻松地理解和学习古文。在文化传承方面，该数据集支持古籍数字化和自动化翻译，有助于古籍的保存和传播。在科技领域，该数据集为自然语言处理技术的应用提供了基础，推动了古文信息处理和智能翻译系统的发展。

数据集最近研究