en-ru-filtered-dict-20m-corpus

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/KvaytG/en-ru-filtered-dict-20m-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是 [en-ru-statistical-dict-20m-corpus](https://huggingface.co/datasets/KvaytG/en-ru-statistical-dict-20m-corpus) 的过滤版本，旨在为英俄翻译任务提供一个“无噪声”的核心词典，特别关注现代语料库中最常见的词汇。原始数据集来源于一个包含2000万句子的平行语料库，而本版本通过严格筛选，仅保留最可靠和频繁的词对。筛选标准包括： 1. **高频词对**：仅保留源语料库中出现次数 `count >= 1000` 的词对。 2. **统计置信度**：仅包含翻译概率 `probability >= 0.5` 的词对。数据集结构包含以下字段： - `english_word`：英语源词。 - `russian_word`：对应的俄语翻译。 - `count`：该词对在原始2000万句子语料库中的出现次数。 - `probability`：统计翻译概率（0.0到1.0）。数据集规模为4,096个样本，适用于英俄翻译任务、词典构建和自然语言处理研究。数据集采用Apache License 2.0许可，主要用于研究和教育目的。

This dataset is a filtered version of [en-ru-statistical-dict-20m-corpus](https://huggingface.co/datasets/KvaytG/en-ru-statistical-dict-20m-corpus), developed to provide a noise-free core dictionary for English-Russian translation tasks, with a particular focus on the most prevalent vocabulary in modern corpora. The original dataset originates from a parallel corpus containing 20 million sentences, and this filtered version retains only the most reliable and frequent word pairs through strict screening criteria. The screening criteria are as follows: 1. **High-frequency Word Pairs**: Only retain word pairs with an occurrence count `count >= 1000` in the source corpus. 2. **Statistical Confidence**: Only include word pairs with a translation probability `probability >= 0.5`. The dataset contains the following fields: - `english_word`: The English source word. - `russian_word`: The corresponding Russian translation. - `count`: The number of occurrences of this word pair in the original 20-million-sentence parallel corpus. - `probability`: The statistical translation probability, ranging from 0.0 to 1.0. This dataset comprises 4,096 samples, which is suitable for English-Russian translation tasks, dictionary construction, and natural language processing (NLP) research. It is licensed under the Apache License 2.0, primarily intended for research and educational purposes.

创建时间：

2026-04-14

原始信息汇总

en-ru-filtered-dict-20m-corpus 数据集概述

数据集基本信息

许可证: Apache License 2.0
语言: 英语 (en)、俄语 (ru)
标签: translation, dictionary, nlp, en-ru, statistical-alignment
数据规模: 1K<n<10K
训练集样本数量: 4096

数据集描述

本数据集是 en-ru-statistical-dict-20m-corpus 的过滤版本。原始数据集源自一个包含2000万句的平行语料库，而此版本专注于最可靠和频繁的单词对。

该版本的目标是为英俄翻译任务提供一个“无噪声”的核心词典，特别针对现代语料库中最常见的词汇。

过滤标准

为确保高质量，对原始统计数据应用了以下严格过滤器：

高频率: 仅保留源语料库中总 count >= 1000 的单词对。
统计置信度: 仅包含 probability >= 0.5 的对。

数据结构

数据集包含以下列：

english_word: 英语源词。
russian_word: 对应的俄语翻译。
count: 该词对在原始2000万句语料库中出现的次数。
probability: 统计翻译概率 (0.0 至 1.0)。

使用方法

python from datasets import load_dataset dataset = load_dataset("KvaytG/en-ru-filtered-dict-20m-corpus", split="train")

法律声明

免责声明: 该数据集是 en-ru-parallel-20m 语料库经过高度过滤的统计衍生品。通过应用严格阈值 (count ≥ 1000, prob ≥ 0.5)，我们提取了最稳定的词汇对齐。虽然源数据包含来自OPUS项目的聚合语料库，但此过滤版本代表一般的语言事实和统计概率，而非特定的受版权保护的序列。它主要供研究和教育目的使用。

引用

bibtex @misc{kvaytg_en_ru_filtered_dict_20m_corpus, author = {KvaytG}, title = {Filtered English-Russian Statistical Dictionary}, year = {2026}, publisher = {Hugging Face}, journal = {Hugging Face Datasets}, url = {https://huggingface.co/datasets/KvaytG/en-ru-filtered-dict-20m-corpus}, note = {Filtered version of en-ru-statistical-dict-20m-corpus (count ≥ 1000, prob ≥ 0.5)} }

搜集汇总

数据集介绍

构建方式

在机器翻译与词典构建领域，高质量的双语词汇对齐资源对提升模型性能至关重要。en-ru-filtered-dict-20m-corpus 的构建源于一个包含两千万句对的庞大平行语料库，通过统计对齐方法提取原始词汇对。随后，为保障词典的可靠性与纯净度，研究者设定了严格的过滤标准：仅保留在源语料中出现频次不低于1000次的词对，并且其统计翻译概率需达到0.5以上。这一过程旨在从海量噪声数据中提炼出核心且稳定的词汇映射关系，形成一个精炼的英俄翻译词典。

特点

该数据集的核心特点在于其高度的纯净性与统计可信度。经过严格阈值筛选后，所包含的4096个词对均代表了英俄语言间最常见且稳定的词汇对应关系。每个条目不仅提供英语源词与俄语译词，还附有在原始语料中的共现频次及统计概率，为研究者提供了量化评估词汇对齐强度的直接依据。这种设计使得该数据集超越了传统词典的简单罗列，成为融合了实证语言使用频率与统计置信度的结构化知识库，特别适用于需要可靠基础词汇资源的翻译模型训练与语言学研究。

使用方法

在自然语言处理的应用中，该数据集可直接服务于英俄双语词典构建、翻译模型初始化或词汇对齐验证等任务。使用者可通过Hugging Face的`datasets`库便捷加载，指定数据集名称与训练分割即可获取全部结构化条目。基于其提供的频次与概率信息，研究者可以进一步实施加权采样、构建概率翻译表或作为先验知识融入神经机器翻译系统。该资源主要面向学术研究与教育目的，为探索词汇级别的跨语言语义映射提供了经过实证筛选的高质量起点。

背景与挑战

背景概述

在自然语言处理领域，双语词典构建是机器翻译与跨语言信息检索的基础任务之一。en-ru-filtered-dict-20m-corpus数据集由研究者KvaytG于2026年发布，其核心目标是从大规模平行语料中提取高置信度的英俄词汇对齐对，为翻译系统提供纯净的词汇级参考。该数据集基于包含2000万句对的原始语料库，通过严格的频率与概率阈值筛选，旨在捕捉现代语料中最为稳定和常见的词汇对应关系，从而为统计对齐与神经机器翻译模型提供可靠的词典资源，对提升低资源语言对的翻译质量具有显著意义。

当前挑战

该数据集致力于解决英俄双语词汇对齐的精确性问题，其核心挑战在于如何从海量噪声数据中识别出真正可靠的翻译对。原始平行语料中存在的歧义表达、低频词汇以及语境依赖的翻译变体，使得统计对齐容易产生错误匹配。在构建过程中，研究者需克服数据稀疏性与噪声干扰，通过设定高频（出现次数≥1000）与高概率（对齐概率≥0.5）的双重过滤标准，以平衡词典的覆盖度与准确性，确保最终输出的词汇对具有足够的统计显著性与语言学合理性。

常用场景

经典使用场景

在机器翻译与自然语言处理领域，高质量的双语词典是构建可靠翻译系统的基石。en-ru-filtered-dict-20m-corpus通过严格的频率与概率阈值筛选，提供了一个纯净的英俄核心词汇对照表，常被用于初始化或增强统计机器翻译与神经机器翻译模型中的词对齐模块，为跨语言语义映射奠定稳固的词汇基础。

衍生相关工作

基于该数据集的高质量过滤理念，后续研究衍生出多种针对特定领域或语言对的精炼词典构建方法。例如，在低资源机器翻译任务中，类似的高置信度过滤策略被广泛采纳以构建种子词典；同时，该数据也常作为基准，用于评估新型词对齐算法或跨语言词向量模型的性能，推动了双语词典归纳技术的持续演进。

数据集最近研究