Erya

Name: Erya
Creator: 高瓴人工智能学院
Published: 2023-08-01 10:43:27
License: 暂无描述

arXiv2023-08-01 更新2024-06-21 收录

下载链接：

https://github.com/RUCAIBox/Erya

下载链接

链接失效反馈

官方服务：

资源简介：

Erya数据集是由中国人民大学高瓴人工智能学院创建的，目前是最大的古汉语资源，包含88,808,928条古汉语句子和1,941,396,399个字符。该数据集通过从互联网和开放源数据中收集古汉语材料，并经过清洗和分类，形成了包括单语古文数据和古现代平行数据的综合资源。Erya数据集的创建旨在解决古汉语翻译的难题，通过提供丰富的古汉语资源和分类标准，支持古汉语翻译模型的训练和评估，从而促进古汉语文学的现代传播和理解。

The Erya Dataset was developed by the Gaoling School of Artificial Intelligence, Renmin University of China. It currently stands as the largest ancient Chinese language resource, containing 88,808,928 ancient Chinese sentences and 1,941,396,399 characters. This dataset is built by collecting ancient Chinese materials from the Internet and open-source datasets, followed by cleaning and categorization, forming a comprehensive resource that encompasses both monolingual ancient Chinese data and ancient-modern parallel corpora. The development of the Erya Dataset aims to address the challenges inherent in ancient Chinese translation: by providing rich ancient Chinese resources and standardized classification frameworks, it supports the training and evaluation of ancient Chinese translation models, thereby advancing the modern dissemination and comprehension of ancient Chinese literature.

提供机构：

高瓴人工智能学院

创建时间：

2023-08-01

搜集汇总

数据集介绍

构建方式

Erya数据集的构建方法始于对古代汉语文本的广泛收集，这些文本涵盖了从公元前1000年到公元1600年间的各个朝代。数据清洗过程中，删除了非中文字符，简化了繁体字，并统一了标点符号。为了消除重复内容，使用了MinHash算法进行去重。随后，根据文本特征，将数据集分为历史、文章和小说三个类别，并进一步细分为古代、中古和近代汉语。最终，Erya数据集包含了88,808,928个古代汉语句子和1,941,396,399个字符，以及2,087,804个古代-现代并行句子和84,769,383个字符。

使用方法

使用Erya数据集的方法包括两个训练任务：双音节对齐替换（DAS）和双向掩码语言模型（DMLM）。DAS旨在缩小古代汉语和现代汉语之间的词表示差距，而DMLM则通过同时训练编码器和双向解码器来优化古代和现代汉语。Erya模型利用Erya数据集中的并行数据进行监督微调，以提高其在古代汉语翻译任务上的性能。此外，Erya模型还经过了额外的翻译训练，以进一步减少训练和推理之间的差距。

背景与挑战

背景概述

古代汉语文献是人类宝贵的文化遗产，但因其语言特点，现代读者难以完全理解。为了使古代汉语文献重焕生机，Erya数据集应运而生。该数据集由中国人民大学高瓴人工智能学院和北京市大数据管理与分析方法重点实验室的研究人员创建，旨在解决古代汉语翻译的难题。Erya数据集是目前为止最全面的古代汉语资源，包含单语古代数据和古今平行数据，并按照文本和年代特征进行分类。此外，Erya模型专门针对古代汉语翻译，采用了多任务学习方法，包括双音节对齐替换（DAS）和双向掩码语言模型（DMLM），有效提高了古代汉语翻译的质量。Erya数据集和模型为古代汉语翻译研究提供了重要的资源和工具，推动了相关领域的发展。

当前挑战

古代汉语翻译面临着多个挑战。首先，古代汉语与现代汉语在词汇、语法和语义方面存在较大差异，这给翻译带来了困难。其次，古代汉语文献的格式和标点符号与现代文本不同，需要进行特殊处理。此外，现有的翻译模型大多以英语为中心进行预训练，难以有效处理古代汉语的特点。为了克服这些挑战，Erya数据集和模型采用了多种方法。首先，通过数据收集和清洗，构建了包含单语古代数据和古今平行数据的Erya数据集，并按照文本和年代特征进行分类。其次，设计了DAS和DMLM两种训练任务，使模型能够更好地学习古代汉语和现代汉语之间的语义关系。最后，通过在Erya基准上进行评估，验证了Erya模型在零样本和微调场景下的优越性能。

常用场景

经典使用场景

Erya数据集主要用于古汉语翻译的研究和开发。它包含了丰富的古汉语单语语料库和古汉语-现代汉语平行语料库，为研究者提供了大量的古汉语文本数据，用于训练和评估古汉语翻译模型。该数据集的构建和发布，极大地推动了古汉语翻译技术的发展，使得古汉语翻译模型能够在不同的场景下取得显著的翻译效果，为古汉语文献的传播和理解提供了强有力的支持。

解决学术问题

Erya数据集的构建和发布，解决了古汉语翻译研究中数据集规模小、数据质量低的问题。该数据集包含了丰富的古汉语文本数据，为研究者提供了大量的古汉语文本数据，用于训练和评估古汉语翻译模型。此外，Erya数据集还包含了古汉语-现代汉语平行语料库，为研究者提供了古汉语与现代汉语之间的语义对应关系，有助于提高古汉语翻译模型的翻译准确性。

实际应用

Erya数据集的实际应用场景包括：1. 古汉语翻译模型的训练和评估；2. 古汉语文献的数字化和传播；3. 古汉语教学和研究。Erya数据集的发布，为古汉语翻译模型的研究和开发提供了强有力的数据支持，使得古汉语翻译模型能够在不同的场景下取得显著的翻译效果。此外，Erya数据集还为古汉语文献的数字化和传播提供了大量的古汉语文本数据，有助于推动古汉语文献的数字化和传播。同时，Erya数据集还为古汉语教学和研究提供了丰富的古汉语文本数据，有助于推动古汉语教学和研究的深入发展。

数据集最近研究