Open English Dictionary

github2025-10-29 更新2025-10-30 收录

下载链接：

https://github.com/ahpxex/open-dictionary

下载链接

链接失效反馈

官方服务：

资源简介：

基于维基词典构建的真正开放词典，使用大型语言模型进行更详细的解释，包含跨多种语言的庞大词汇数据，提供极其详细的定义，支持多种分发格式如jsonl和sqlite

A truly open dictionary built on Wiktionary. It leverages Large Language Models (LLMs) to provide more detailed explanations, encompasses a vast multilingual lexical dataset, offers exceptionally detailed definitions, and supports multiple distribution formats such as jsonl and sqlite.

创建时间：

2025-10-20

原始信息汇总

Open English Dictionary 数据集概述

项目状态

当前处于重建阶段
正在进行流程优化和管道集成

数据来源与特征

基于维基词典数据构建
涵盖多种语言的庞大词汇数据
提供极其详细的定义解释
结合大型语言模型进行释义解释

数据格式

新版分发格式将包含：jsonl、sqlite
支持按特定词汇类别进行选择

技术架构

使用PostgreSQL数据库存储数据
数据表采用JSONB格式存储
支持按语言代码进行数据分区
提供词汇常用度评分功能
集成LLM生成结构化释义

处理流程

下载压缩的数据转储文件
提取JSONL格式数据
流式加载到PostgreSQL数据库
按语言进行数据分区和过滤
计算词汇常用度分数
清理低质量数据条目
通过LLM生成学习者友好的结构化释义

环境要求

需要配置PostgreSQL数据库连接
LLM操作需要提供模型、密钥和API端点配置
采用分块流式处理以高效处理千万行级别数据集

搜集汇总

数据集介绍

构建方式

作为多语言词典数据整合的典范，Open English Dictionary采用模块化流水线构建模式。其核心数据源来自维基词典的结构化转储文件，通过下载、解压、加载三阶段将原始JSONL数据导入PostgreSQL数据库。系统支持按语言代码自动分区存储，并利用大语言模型对词条定义进行智能化增强，形成包含词频统计和清洗过滤的完整知识图谱。

使用方法

使用者可通过命令行工具链实现端到端的数据处理。从配置数据库连接到执行流水线作业，系统提供分步操作与集成运行两种模式。针对特定研究需求，可调用过滤指令提取目标语言子集，或通过LLM增强模块生成教学导向的释义内容。所有操作均采用流式处理以应对千万级数据量，并内置指数退避重试机制保障大规模API调用的稳定性。

背景与挑战

背景概述

作为数字时代语言资源建设的重要实践，Open English Dictionary项目由开源社区主导开发，旨在构建一个覆盖多语言词汇的综合性词典数据库。该项目通过整合维基词典的语义数据与大型语言模型的解释能力，致力于解决传统词典更新滞后与语义覆盖不足的核心问题。其采用模块化数据处理流程与多格式分发机制，显著提升了跨语言词汇检索的完整性与时效性，为自然语言处理及教育技术领域提供了动态演化的基础语料支撑。

当前挑战

该数据集构建面临双重挑战：在领域问题层面，需突破传统词典对新兴词汇与跨文化语义表征的局限性，实现海量词条的多粒度释义标准化；在技术实施层面，处理超过千万行的原始数据时需克服异构数据融合、流式处理效率优化以及LLM接口并发控制的工程难题，同时需保障低频词汇质量过滤与多语言分区管理的计算可行性。

常用场景

经典使用场景

在自然语言处理领域，Open English Dictionary凭借其从Wiktionary提取的跨语言海量词汇和精细释义，成为构建词典知识图谱与语义解析系统的核心资源。该数据集通过结构化存储英语词汇的音标、词性、例句及多语言对照信息，为机器翻译模型的训练提供了高质量的平行语料，同时支持词汇语义相似度计算等基础语言任务。其流式处理架构使得研究人员能够高效提取特定领域的术语体系，推动计算语言学研究的深入发展。

解决学术问题

该数据集有效解决了传统电子词典数据分散、标注粒度粗糙的学术困境。通过整合Wiktionary的跨语言释义网络与LLM增强的释义生成，为词汇消歧、概念对齐等自然语言理解任务提供可靠基准。其引入的词频统计与质量过滤机制，显著提升了低资源语言处理的数据可靠性，同时基于JSONB的灵活存储格式为词汇演化研究和认知语言学分析提供了动态观测窗口。

实际应用

在教育科技领域，该数据集通过LLM生成的汉语学习者友好释义，直接赋能智能英语教学系统的开发。其多格式分发特性使得移动端词典应用能够按需加载特定词类，显著提升离线查询效率。企业级搜索系统利用其词频数据和语义网络优化查询扩展，而跨境电子商务平台则借助跨语言对照功能构建多语种商品标签体系，实现精准的国际化语义匹配。

数据集最近研究