english-words-definitions

Name: english-words-definitions
Creator: MongoDB
Published: 2025-09-04 10:30:57
License: 暂无描述

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/MongoDB/english-words-definitions

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了467k个英语单词的定义和重要事实，这些单词是在英语文本上下文中出现的。数据集用于训练高效率、紧凑型文本嵌入模型mdbr-leaf-ir和mdbr-leaf-mt。

This dataset contains definitions and key factual information for 467k English words that appear in English textual contexts. It is used to train the high-efficiency and compact text embedding models mdbr-leaf-ir and mdbr-leaf-mt.

提供机构：

MongoDB

创建时间：

2025-09-04

原始信息汇总

English Words Definitions 数据集概述

数据集基本信息

许可证: Apache-2.0
任务类别: 特征提取、文本检索
语言: 英语
标签: 词汇
数据规模: 10万到100万之间

数据集内容

包含467,000个英语单词的定义和重要事实
数据来源于英语文本语境中出现的单词
原始单词列表来自 https://github.com/dwyl/english-words
使用Claude 3.7 Sonnet扩展了每个单词的定义和重要事实

应用场景

用于训练高性能紧凑文本嵌入模型
- https://huggingface.co/MongoDB/mdbr-leaf-ir
- https://huggingface.co/MongoDB/mdbr-leaf-mt

搜集汇总

数据集介绍

构建方式

在英语词汇研究领域，构建高质量的定义数据集对自然语言处理至关重要。该数据集以GitHub开源词库为原始基础，涵盖46.7万个英语词汇单元，通过Claude 3.7 Sonnet大语言模型对每个词汇进行自动化定义生成与关键事实标注，形成结构化词汇-定义对，最终构建出兼具广度与深度的语言学资源库。

使用方法

该数据集主要应用于词汇语义表示学习领域，研究者可将其作为训练基准用于开发紧凑型文本嵌入模型，如mdbr-leaf系列模型。使用时直接加载词汇定义对，通过特征提取管道将文本映射为向量表示，或用于构建词汇检索系统，实现基于语义相似度的词汇匹配与知识发现。

背景与挑战

背景概述

英语词汇定义数据集english-words-definitions由MongoDB研究团队于2024年构建，旨在为自然语言处理领域提供高质量的词汇语义资源。该数据集收录了46.7万个英语单词的权威定义与关键语义特征，源自经典的dwyl/english-words词库，并采用Claude 3.7 Sonnet模型进行智能化扩展。作为文本嵌入模型mdbr-leaf系列的核心训练基础，该数据集显著提升了词汇级语义理解的精确度，对信息检索、语义特征提取等研究方向产生重要推动作用。

当前挑战

该数据集主要应对英语词汇语义表示的核心难题，包括多义词的精准消歧、专业术语的领域适应性以及词汇语义关系的结构化建模。在构建过程中面临定义来源权威性验证、大规模词汇标注一致性维护以及生成式模型幻觉控制等挑战，需通过多层次人工校验与自动化质量控制相结合的方式确保数据可靠性。

常用场景

经典使用场景

在自然语言处理领域，english-words-definitions数据集为词汇语义理解提供了重要支撑。该数据集通过整合46.7万个英语单词的定义与关键事实，成为训练高性能文本嵌入模型的核心语料，特别是在词汇级语义表征任务中，为模型提供精准的词汇语义映射关系。

解决学术问题

该数据集有效解决了词汇语义消歧、跨语言词汇对齐等基础研究难题。通过提供大规模标准化词汇定义，显著提升了文本嵌入模型对多义词和低频词的表征能力，为词汇语义网络构建和知识图谱增强提供了数据基础，推动了计算语言学领域的理论创新。

实际应用

在实际应用层面，该数据集支撑的嵌入模型已应用于智能检索系统和机器翻译场景。基于词汇定义的深度语义匹配显著提升了搜索引擎的查询理解精度，同时在跨语言应用中改善了专业术语的翻译质量，为教育科技和语言服务行业提供了技术基础设施。

数据集最近研究