EVBCorpus

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/qhungngo/EVBCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

EVBCorpus是一个包含超过2000万字的英语-越南语平行翻译语料库，用于比较语言学、机器翻译和越南语自然语言处理任务。该语料库包含15本双语书籍、100篇平行英越/越英语文本、250篇平行法律和条例文本、5000篇新闻文章和2000部电影字幕。

The EVBCorpus is a parallel translation corpus containing over 20 million words in English and Vietnamese, designed for comparative linguistics, machine translation, and Vietnamese natural language processing tasks. This corpus includes 15 bilingual books, 100 parallel English-Vietnamese/Vietnamese-English texts, 250 parallel legal and regulatory texts, 5000 news articles, and 2000 movie subtitles.

创建时间：

2018-07-17

原始信息汇总

EVBCorpus 概述

数据集内容

EVBCorpus 包含超过20,000,000字（2000万字），来源于：
- 15本双语书籍
- 100篇平行英语-越南语/越南语-英语文本
- 250篇平行法律和条例文本
- 5,000篇新闻文章
- 2,000部电影字幕

数据集构建过程

收集数据并按段落级别对齐双语文本
按句子级别对齐双语文本
进行语言分析和标记
使用工具包注释和校正语料库

数据集版本与发布

EVBNews v.1.0：包含1,000篇平行文档，提供下载。
EVBNews v.2.0：包含1,000篇词对齐平行文档，提供下载。

数据集详细构成（升级版v.2.0）

来源	文档数	段落数	句子数	单词数
书籍	15	14,195	61,167	1,335,180
小说	100	192,898	489,787	6,129,161
法律	250	86,848	98,064	1,981,932
ETests	500	20,288	21,575	411,093
新闻	5,000	94,933	173,903	2,965,590
字幕	2,000	1,302,839	1,447,581	8,150,080
总计	7,865	1,712,001	2,292,077	20,973,036

其他相关数据集

EVWACorpus：包含1,000篇新闻文章，45,531对句子，740,534个单词，手动词级别对齐。
EVChkCorpus：包含1,000篇新闻文章，45,531对句子，标记了5种原始分块标签。
EVNECorpus：包含1,000篇新闻文章，45,531对句子，标记了命名实体。

学术出版物

EVBCorpus：Quoc Hung Ngo, Werner Winiwarter, and Bartholomaus Wloka, (2013).
EVNECorpus：Quoc Hung Ngo, Dinh Dien, and Werner Winiwarter, (2014).

联系方式

如需更多详情，请邮件联系 hungnq(at)uit.edu.vn。

搜集汇总

数据集介绍

构建方式

EVBCorpus的构建过程严谨而系统，涵盖了多个关键步骤。首先，数据收集与对齐在段落层面进行，确保了文本的初步结构化。随后，通过句子级别的对齐，进一步细化了文本的对应关系。接着，进行语言学分析与标注，以增强数据的质量和可用性。最后，利用工具包对语料库进行注释和修正，确保了数据的高精度对齐。这一过程不仅实现了句子级别的对齐，还通过工具和人工注释实现了部分新闻文章的词级别对齐，极大地提升了数据集的精细度。

特点

EVBCorpus的显著特点在于其多样化的数据来源和精细的对齐层次。该数据集包含了从15本双语书籍、100篇平行文本、250篇法律和条例文本、5000篇新闻文章以及2000部电影字幕中提取的超过2000万词的文本。其数据不仅涵盖了广泛的领域，还通过句子级别和部分词级别的对齐，提供了高质量的双语对照数据。此外，EVBCorpus还包含了多种标注信息，如命名实体、短语结构等，为语言学研究和机器翻译提供了丰富的资源。

使用方法

EVBCorpus适用于多种自然语言处理任务，特别是在比较语言学、机器翻译和越南语自然语言处理领域。用户可以通过下载提供的不同版本数据集，如EVBNews v.1.0和v.2.0，进行研究和实验。数据集的多样化内容和精细对齐使得其在构建双语术语提取、机器翻译模型等方面具有显著优势。此外，EVBCorpus还提供了详细的标注信息，如命名实体、短语结构等，便于进行更深入的语言学分析。对于学术研究者，可以通过电子邮件联系数据集的维护者获取更多详细信息和使用指导。

背景与挑战

背景概述

EVBCorpus，一个由英语和越南语构成的双语平行语料库，由Quoc Hung Ngo等研究人员于2012年首次发布，并在2018年进行了重大升级。该语料库包含了超过2000万字的文本，涵盖了书籍、法律文本、新闻文章和电影字幕等多种资源，旨在支持机器翻译、对比语言学以及越南语自然语言处理等领域的研究。EVBCorpus的构建不仅为英语-越南语语言对的研究提供了丰富的资源，还通过其多层次的标注和分析，推动了双语术语提取和语言技术的发展。

当前挑战

EVBCorpus在构建过程中面临了多个挑战。首先，数据收集和段落级对齐的复杂性要求高精度的对齐技术。其次，句子级和词级对齐的实现需要大量的手动校正和工具辅助，这增加了数据处理的难度。此外，语言分析和标注的准确性对后续研究至关重要，如何确保标注的一致性和可靠性是一个持续的挑战。最后，随着数据规模的扩大，如何高效管理和更新语料库，以适应不断变化的研究需求，也是该数据集面临的重要问题。

常用场景

经典使用场景

EVBCorpus 数据集在比较语言学、机器翻译和越南语自然语言处理任务中具有广泛的应用。其丰富的平行文本资源，尤其是英语-越南语的双语对齐数据，为研究者提供了宝贵的语料库。经典的使用场景包括构建统计机器翻译系统、进行双语术语提取以及开发越南语的自然语言处理工具。通过该数据集，研究者能够深入分析两种语言的句法和语义结构，从而推动跨语言信息处理的进展。

衍生相关工作

基于 EVBCorpus 数据集，研究者们开展了多项经典工作。例如，Trieu 等人利用该数据集研究了低资源语言的机器翻译问题，提出了基于神经网络的翻译模型。Nguyen 等人则通过 EVBCorpus 构建了英语-越南语的双语命名实体识别系统。此外，Song 等人基于该数据集开发了越南语的分词工具，推动了越南语自然语言处理的基础研究。这些工作不仅丰富了数据集的应用场景，还为相关领域的研究提供了新的思路和方法。

数据集最近研究