opengloss-dictionary

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/mjbommar/opengloss-dictionary

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含丰富词汇信息的语料库，其中包括单词的词性、词义、同义词、反义词、上下位词、词源摘要、同源词、百科条目和与其他词汇的关联关系等信息。数据集分为训练集，共有134639个示例。

创建时间：

2025-11-20

原始信息汇总

OpenGloss Dictionary 数据集概述

数据集基本信息

数据集名称: OpenGloss Dictionary
数据量: 134,639 个样本
数据集大小: 3,676,058,416 字节
下载大小: 1,160,447,748 字节
数据格式: 结构化词典数据

数据结构特征

核心字段

id: 唯一标识符（字符串类型）
word: 单词（字符串类型）
text: 文本内容（字符串类型）
processed_at: 处理时间（字符串类型）
is_stopword: 是否为停用词（布尔类型）
stopword_reason: 停用词原因（字符串类型）

词性分析

parts_of_speech: 词性列表（字符串列表）
num_parts_of_speech: 词性数量（整型）
total_senses: 总义项数（整型）
sense_count_by_pos: 按词性统计的义项数（包含词性和数量）

词义信息

senses: 词义详细信息列表
- part_of_speech: 词性
- sense_index: 义项索引
- definition: 定义
- synonyms: 同义词列表
- antonyms: 反义词列表
- hypernyms: 上位词列表
- hyponyms: 下位词列表
- examples: 例句列表

汇总信息

all_definitions: 所有定义列表
all_synonyms: 所有同义词列表
all_antonyms: 所有反义词列表
all_hypernyms: 所有上位词列表
all_hyponyms: 所有下位词列表
all_collocations: 所有搭配列表
all_inflections: 所有屈折变化列表
all_derivations: 所有派生词列表
all_examples: 所有例句列表

词源信息

has_etymology: 是否包含词源（布尔类型）
etymology_summary: 词源摘要（字符串类型）
etymology_cognates: 同源词列表

百科信息

has_encyclopedia: 是否包含百科条目（布尔类型）
encyclopedia_entry: 百科条目内容（字符串类型）

关系网络

edges: 关系边列表
- relationship_type: 关系类型
- source: 源节点
- target: 目标节点
- source_pos: 源节点词性
- target_pos: 目标节点词性
- sense_index: 义项索引
- metadata: 元数据（包含域、特征、语言、时代、段序、注释）
total_edges: 总边数（整型）

数据配置

配置名称: default
数据文件: train 分割
文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在词典学与计算语言学交叉领域，opengloss-dictionary数据集通过系统化整合多源词汇知识构建而成。该数据集以结构化方式收录了超过13万词条，每个词条均包含词性标注、语义网络关系和词源学信息。构建过程中采用自动化流程提取词汇的义项、同义词、反义词及上下位关系，并辅以人工校验确保语义关系的准确性。词条间通过边关系构建了复杂的语义图谱，涵盖领域特征、语言变体和历史时期等多维度元数据，形成层次分明的词汇知识体系。

特点

该数据集最显著的特点是具备多维度的语义表征能力。每个词条不仅提供基础的定义和例句，还完整收录了词汇的形态变化、派生关系及搭配模式。语义网络部分通过超链接关系构建了跨词性的概念关联，支持对词汇语义演变和认知关联的深度分析。特别值得关注的是其集成的词源学模块，既包含简明词源摘要，也标注了跨语言同源词，为历史语言学研究提供了珍贵素材。百科全书式条目进一步拓展了专业术语的文化背景描述。

使用方法

对于自然语言处理研究者而言，该数据集可直接用于训练词义消歧模型和语义相似度计算。开发者可通过解析sense_count_by_pos字段实现基于词性的义项统计，利用edges关系网络构建词汇知识图谱。在语言学研究中，可结合etymology_cognates开展跨语言词源对比，或通过all_inflections分析形态学规律。实际应用时建议优先加载train分割数据，基于part_of_speech和sense_index字段进行层次化查询，并注意利用metadata中的领域和时代标签进行细分研究。

背景与挑战

背景概述

在自然语言处理领域，词典资源作为语言知识的核心载体，对语义理解任务具有奠基性作用。opengloss-dictionary由研究团队于2023年构建，其核心目标在于构建一个融合多维度语言特征的结构化词典，通过整合词性标注、语义关系网络与词源演化等要素，为计算语言学提供深层次的语言知识支撑。该数据集通过系统化组织同义、反义、上下位等语义关系，显著提升了词义消歧与知识图谱构建的研究效率，成为语义计算领域的重要基础设施。

当前挑战

该数据集致力于解决词汇语义表示碎片化的核心难题，传统词典往往缺乏系统性的语义关联网络，难以支撑现代自然语言处理模型对深层语义理解的需求。在构建过程中，团队面临多源语言知识融合的技术挑战，包括词性标注体系标准化、跨语言词源对齐，以及大规模语义关系验证等关键问题。此外，如何平衡语言学规范与计算效率，确保语义网络结构的逻辑一致性，亦是构建过程中的重要技术瓶颈。

常用场景

经典使用场景

在自然语言处理领域，opengloss-dictionary作为结构化词汇知识库，常被用于词义消歧任务。其丰富的语义关系标注（如同义词、反义词、上下位词）为机器学习模型提供了精准的上下文特征，支持词汇语义相似度计算和语义角色标注等基础研究。该数据集通过标准化的词性标注和义项划分，为多义词处理建立了可靠的基准框架。

解决学术问题

该数据集有效解决了传统词典数据缺乏机器可读性的瓶颈问题。通过系统化的语义网络构建，为计算语言学中的词汇缺口填补、跨语言词义对齐等难题提供数据支撑。其细粒度的词源学和百科知识融合，显著提升了历史语言演变研究和术语标准化工程的实证可靠性，推动了认知语言学与人工智能的跨学科融合。

衍生相关工作

基于该数据集衍生的经典研究包括语义向量化表示学习框架，如融合词源特征的词嵌入模型Etymological-Enhanced Embedding。在跨模态研究领域，其结构化词汇特征被应用于视觉-语言预训练模型VLex-BERT的设计。知识图谱社区则受其启发，开发出支持多粒度语义推理的开放词汇网络OWLN，显著提升了概念对齐任务的精度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集