opengloss-dictionary
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/mjbommar/opengloss-dictionary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含丰富词汇信息的语料库,其中包括单词的词性、词义、同义词、反义词、上下位词、词源摘要、同源词、百科条目和与其他词汇的关联关系等信息。数据集分为训练集,共有134639个示例。
创建时间:
2025-11-20
原始信息汇总
OpenGloss Dictionary 数据集概述
数据集基本信息
- 数据集名称: OpenGloss Dictionary
- 数据量: 134,639 个样本
- 数据集大小: 3,676,058,416 字节
- 下载大小: 1,160,447,748 字节
- 数据格式: 结构化词典数据
数据结构特征
核心字段
- id: 唯一标识符(字符串类型)
- word: 单词(字符串类型)
- text: 文本内容(字符串类型)
- processed_at: 处理时间(字符串类型)
- is_stopword: 是否为停用词(布尔类型)
- stopword_reason: 停用词原因(字符串类型)
词性分析
- parts_of_speech: 词性列表(字符串列表)
- num_parts_of_speech: 词性数量(整型)
- total_senses: 总义项数(整型)
- sense_count_by_pos: 按词性统计的义项数(包含词性和数量)
词义信息
- senses: 词义详细信息列表
- part_of_speech: 词性
- sense_index: 义项索引
- definition: 定义
- synonyms: 同义词列表
- antonyms: 反义词列表
- hypernyms: 上位词列表
- hyponyms: 下位词列表
- examples: 例句列表
汇总信息
- all_definitions: 所有定义列表
- all_synonyms: 所有同义词列表
- all_antonyms: 所有反义词列表
- all_hypernyms: 所有上位词列表
- all_hyponyms: 所有下位词列表
- all_collocations: 所有搭配列表
- all_inflections: 所有屈折变化列表
- all_derivations: 所有派生词列表
- all_examples: 所有例句列表
词源信息
- has_etymology: 是否包含词源(布尔类型)
- etymology_summary: 词源摘要(字符串类型)
- etymology_cognates: 同源词列表
百科信息
- has_encyclopedia: 是否包含百科条目(布尔类型)
- encyclopedia_entry: 百科条目内容(字符串类型)
关系网络
- edges: 关系边列表
- relationship_type: 关系类型
- source: 源节点
- target: 目标节点
- source_pos: 源节点词性
- target_pos: 目标节点词性
- sense_index: 义项索引
- metadata: 元数据(包含域、特征、语言、时代、段序、注释)
- total_edges: 总边数(整型)
数据配置
- 配置名称: default
- 数据文件: train 分割
- 文件路径: data/train-*
搜集汇总
数据集介绍

构建方式
在词典学与计算语言学交叉领域,opengloss-dictionary数据集通过系统化整合多源词汇知识构建而成。该数据集以结构化方式收录了超过13万词条,每个词条均包含词性标注、语义网络关系和词源学信息。构建过程中采用自动化流程提取词汇的义项、同义词、反义词及上下位关系,并辅以人工校验确保语义关系的准确性。词条间通过边关系构建了复杂的语义图谱,涵盖领域特征、语言变体和历史时期等多维度元数据,形成层次分明的词汇知识体系。
特点
该数据集最显著的特点是具备多维度的语义表征能力。每个词条不仅提供基础的定义和例句,还完整收录了词汇的形态变化、派生关系及搭配模式。语义网络部分通过超链接关系构建了跨词性的概念关联,支持对词汇语义演变和认知关联的深度分析。特别值得关注的是其集成的词源学模块,既包含简明词源摘要,也标注了跨语言同源词,为历史语言学研究提供了珍贵素材。百科全书式条目进一步拓展了专业术语的文化背景描述。
使用方法
对于自然语言处理研究者而言,该数据集可直接用于训练词义消歧模型和语义相似度计算。开发者可通过解析sense_count_by_pos字段实现基于词性的义项统计,利用edges关系网络构建词汇知识图谱。在语言学研究中,可结合etymology_cognates开展跨语言词源对比,或通过all_inflections分析形态学规律。实际应用时建议优先加载train分割数据,基于part_of_speech和sense_index字段进行层次化查询,并注意利用metadata中的领域和时代标签进行细分研究。
背景与挑战
背景概述
在自然语言处理领域,词典资源作为语言知识的核心载体,对语义理解任务具有奠基性作用。opengloss-dictionary由研究团队于2023年构建,其核心目标在于构建一个融合多维度语言特征的结构化词典,通过整合词性标注、语义关系网络与词源演化等要素,为计算语言学提供深层次的语言知识支撑。该数据集通过系统化组织同义、反义、上下位等语义关系,显著提升了词义消歧与知识图谱构建的研究效率,成为语义计算领域的重要基础设施。
当前挑战
该数据集致力于解决词汇语义表示碎片化的核心难题,传统词典往往缺乏系统性的语义关联网络,难以支撑现代自然语言处理模型对深层语义理解的需求。在构建过程中,团队面临多源语言知识融合的技术挑战,包括词性标注体系标准化、跨语言词源对齐,以及大规模语义关系验证等关键问题。此外,如何平衡语言学规范与计算效率,确保语义网络结构的逻辑一致性,亦是构建过程中的重要技术瓶颈。
常用场景
经典使用场景
在自然语言处理领域,opengloss-dictionary作为结构化词汇知识库,常被用于词义消歧任务。其丰富的语义关系标注(如同义词、反义词、上下位词)为机器学习模型提供了精准的上下文特征,支持词汇语义相似度计算和语义角色标注等基础研究。该数据集通过标准化的词性标注和义项划分,为多义词处理建立了可靠的基准框架。
解决学术问题
该数据集有效解决了传统词典数据缺乏机器可读性的瓶颈问题。通过系统化的语义网络构建,为计算语言学中的词汇缺口填补、跨语言词义对齐等难题提供数据支撑。其细粒度的词源学和百科知识融合,显著提升了历史语言演变研究和术语标准化工程的实证可靠性,推动了认知语言学与人工智能的跨学科融合。
衍生相关工作
基于该数据集衍生的经典研究包括语义向量化表示学习框架,如融合词源特征的词嵌入模型Etymological-Enhanced Embedding。在跨模态研究领域,其结构化词汇特征被应用于视觉-语言预训练模型VLex-BERT的设计。知识图谱社区则受其启发,开发出支持多粒度语义推理的开放词汇网络OWLN,显著提升了概念对齐任务的精度。
以上内容由遇见数据集搜集并总结生成



