five

Open English Dictionary

收藏
github2025-10-29 更新2025-10-30 收录
下载链接:
https://github.com/ahpxex/open-dictionary
下载链接
链接失效反馈
官方服务:
资源简介:
基于维基词典构建的真正开放词典,使用大型语言模型进行更详细的解释,包含跨多种语言的庞大词汇数据,提供极其详细的定义,支持多种分发格式如jsonl和sqlite

A truly open dictionary built on Wiktionary. It leverages Large Language Models (LLMs) to provide more detailed explanations, encompasses a vast multilingual lexical dataset, offers exceptionally detailed definitions, and supports multiple distribution formats such as jsonl and sqlite.
创建时间:
2025-10-20
原始信息汇总

Open English Dictionary 数据集概述

项目状态

  • 当前处于重建阶段
  • 正在进行流程优化和管道集成

数据来源与特征

  • 基于维基词典数据构建
  • 涵盖多种语言的庞大词汇数据
  • 提供极其详细的定义解释
  • 结合大型语言模型进行释义解释

数据格式

  • 新版分发格式将包含:jsonl、sqlite
  • 支持按特定词汇类别进行选择

技术架构

  • 使用PostgreSQL数据库存储数据
  • 数据表采用JSONB格式存储
  • 支持按语言代码进行数据分区
  • 提供词汇常用度评分功能
  • 集成LLM生成结构化释义

处理流程

  • 下载压缩的数据转储文件
  • 提取JSONL格式数据
  • 流式加载到PostgreSQL数据库
  • 按语言进行数据分区和过滤
  • 计算词汇常用度分数
  • 清理低质量数据条目
  • 通过LLM生成学习者友好的结构化释义

环境要求

  • 需要配置PostgreSQL数据库连接
  • LLM操作需要提供模型、密钥和API端点配置
  • 采用分块流式处理以高效处理千万行级别数据集
搜集汇总
数据集介绍
main_image_url
构建方式
作为多语言词典数据整合的典范,Open English Dictionary采用模块化流水线构建模式。其核心数据源来自维基词典的结构化转储文件,通过下载、解压、加载三阶段将原始JSONL数据导入PostgreSQL数据库。系统支持按语言代码自动分区存储,并利用大语言模型对词条定义进行智能化增强,形成包含词频统计和清洗过滤的完整知识图谱。
使用方法
使用者可通过命令行工具链实现端到端的数据处理。从配置数据库连接到执行流水线作业,系统提供分步操作与集成运行两种模式。针对特定研究需求,可调用过滤指令提取目标语言子集,或通过LLM增强模块生成教学导向的释义内容。所有操作均采用流式处理以应对千万级数据量,并内置指数退避重试机制保障大规模API调用的稳定性。
背景与挑战
背景概述
作为数字时代语言资源建设的重要实践,Open English Dictionary项目由开源社区主导开发,旨在构建一个覆盖多语言词汇的综合性词典数据库。该项目通过整合维基词典的语义数据与大型语言模型的解释能力,致力于解决传统词典更新滞后与语义覆盖不足的核心问题。其采用模块化数据处理流程与多格式分发机制,显著提升了跨语言词汇检索的完整性与时效性,为自然语言处理及教育技术领域提供了动态演化的基础语料支撑。
当前挑战
该数据集构建面临双重挑战:在领域问题层面,需突破传统词典对新兴词汇与跨文化语义表征的局限性,实现海量词条的多粒度释义标准化;在技术实施层面,处理超过千万行的原始数据时需克服异构数据融合、流式处理效率优化以及LLM接口并发控制的工程难题,同时需保障低频词汇质量过滤与多语言分区管理的计算可行性。
常用场景
经典使用场景
在自然语言处理领域,Open English Dictionary凭借其从Wiktionary提取的跨语言海量词汇和精细释义,成为构建词典知识图谱与语义解析系统的核心资源。该数据集通过结构化存储英语词汇的音标、词性、例句及多语言对照信息,为机器翻译模型的训练提供了高质量的平行语料,同时支持词汇语义相似度计算等基础语言任务。其流式处理架构使得研究人员能够高效提取特定领域的术语体系,推动计算语言学研究的深入发展。
解决学术问题
该数据集有效解决了传统电子词典数据分散、标注粒度粗糙的学术困境。通过整合Wiktionary的跨语言释义网络与LLM增强的释义生成,为词汇消歧、概念对齐等自然语言理解任务提供可靠基准。其引入的词频统计与质量过滤机制,显著提升了低资源语言处理的数据可靠性,同时基于JSONB的灵活存储格式为词汇演化研究和认知语言学分析提供了动态观测窗口。
实际应用
在教育科技领域,该数据集通过LLM生成的汉语学习者友好释义,直接赋能智能英语教学系统的开发。其多格式分发特性使得移动端词典应用能够按需加载特定词类,显著提升离线查询效率。企业级搜索系统利用其词频数据和语义网络优化查询扩展,而跨境电子商务平台则借助跨语言对照功能构建多语种商品标签体系,实现精准的国际化语义匹配。
数据集最近研究
最新研究方向
在数字语言学蓬勃发展的背景下,Open English Dictionary项目正通过整合维基词典语料与大型语言模型技术,推动词典编纂范式的革新。当前研究聚焦于构建多语言词汇的智能化解释系统,利用LLM生成面向中文学习者的结构化词条释义,同时通过词频分析与数据清洗机制提升词典质量。这一方向不仅呼应了全球化语境下跨语言知识服务的需求,更通过流式处理技术实现了千万级数据的高效管理,为教育科技与自然语言处理领域的交叉研究提供了重要基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作