five

morphoseg-en

收藏
Hugging Face2025-10-27 更新2025-10-28 收录
下载链接:
https://huggingface.co/datasets/browndw/morphoseg-en
下载链接
链接失效反馈
官方服务:
资源简介:
MorphoSeg English数据集是一个英文单词到词素分割的数据集,从基于维基词典的语料库中处理而来。数据集包含275,836个独特的单词/词素对,每个示例包含原始单词形式和有序的词素字符串列表。该数据集适用于训练和评估词素分割模型,也可用于英语词汇数据中的词素分布的语言学分析。
创建时间:
2025-10-24
原始信息汇总

MorphoSeg English 数据集概述

基本信息

  • 所有者: browndw
  • 数据集名称: morphoseg-en
  • 主要任务: 英语词到语素分割
  • 语言: 英语 (en)
  • 许可证: CC BY-SA 3.0
  • 数据规模: 100K<n<1M

数据来源

  • 处理自通过Zenodo发布的维基词典衍生语料库 (DOI: 10.5281/zenodo.5172856)
  • 数据格式: JSONL

数据集结构

特征字段

  • word (字符串): 原始单词形式
  • segments (字符串列表): 语素字符串有序列表
  • segment_roles (字符串列表): 语素角色
  • segment_pos (字符串列表): 语素词性
  • original_segments (字符串列表): 原始语素
  • source (字符串): 数据来源
  • subcategory (字符串): 子类别

数据划分

  • 总样本数: 275,836个唯一单词/语素对 (至少包含两个语素)
  • 训练集: 240,923个样本 (32443293字节)
  • 验证集: 30,021个样本 (4050159字节)
  • 测试集: 30,022个样本 (4038236字节)

数据处理流程

  • 使用ijson流式解析原始wiki_morph.json文件
  • 从具有非空Morphemes数组的条目中提取(单词, 语素段)对
  • 过滤掉少于两个语素的示例
  • 通过精确的(单词, 语素元组)进行去重
  • 使用随机种子42将结果示例随机打乱并划分为训练/验证/测试集

主要用途

  • 训练和评估形态分割模型
  • 英语词汇数据中语素分布的语言学分析

局限性

  • 源自维基词典条目,覆盖范围偏向具有更丰富词典文档的词位
  • 可能存在具有不同分割的同形异义词
  • 部分条目保留历史或词源语素分析而非共时分割

引用信息

使用本数据集时请引用Zenodo源和此处理版本,具体引用格式参见README中的BibTeX条目。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算形态学领域,morphoseg-en数据集通过系统化处理Wiktionary语料库构建而成。原始数据采用流式解析技术逐条提取词形与语素序列的对应关系,有效规避了大规模文件加载的内存瓶颈。构建过程中严格筛选包含两个及以上语素的词汇单元,并通过精确去重机制消除重复语义项,最终基于随机种子42将数据划分为训练集、验证集和测试集三个标准分区。
特点
该数据集囊括27.5万余个英语词汇的形态切分实例,每个样本均包含原始词形及其对应的语素序列标注。其显著特征在于完整保留了前缀与后缀的边界标记符号,例如明确标注'non-'与'-ation'等粘着语素。数据分布呈现典型的多语素词汇结构特征,为研究英语派生形态与复合形态提供了标准化观测样本,同时标注体系兼顾历时语源分析与共时形态解构的双重维度。
使用方法
本数据集适用于序列到序列的形态切分模型训练,可支撑字符级Transformer或序列标注架构的开发验证。研究人员可通过标准数据加载接口获取预划分的数据分区,每条样本均以结构化字段呈现词形与语素序列的映射关系。在使用衍生模型时需遵循CC BY-SA 3.0许可协议,并按规定引用原始Zenodo语料库及本数据集的版本信息。
背景与挑战
背景概述
在计算形态学领域,英语词素分析作为自然语言处理的基础任务,旨在揭示词汇内部结构规律。morphoseg-en数据集由研究员David West Brown于2025年构建,基于Prazak等人2021年在Zenodo平台发布的维基词典语料库。该数据集聚焦英语词汇到词素序列的自动切分问题,涵盖超过27万组经过严格去重的多词素词汇对,通过系统化处理流程为形态分析模型提供基准数据,显著推进了词汇形态解构技术在机器翻译与信息检索等领域的应用深度。
当前挑战
该数据集核心挑战在于解决英语词素切分的多义性歧义问题,如同形异义词缺乏语境线索导致的切分歧义。构建过程中面临维基词典源数据标注不一致的困难,包括历时性与共时性词素分析的混合,以及词缀标记规范差异。数据清洗环节需通过内存流解析技术处理大规模原始文件,并设计去重机制消除重复语义单元,这些技术难点直接影响模型对复杂形态现象的泛化能力。
常用场景
经典使用场景
在计算形态学领域,morphoseg-en数据集为英语词素切分任务提供了标准化的评估基准。该数据集通过提取维基词典中的多语素词汇及其切分序列,构建了包含27万余条样本的语料库,广泛应用于序列到序列模型的训练与验证。研究者利用其结构化的词素边界标注数据,能够系统评估字符级Transformer等模型在识别前缀、后缀及词根组合时的性能表现,为形态分析算法的优化提供关键支撑。
实际应用
在实际工程层面,morphoseg-en支撑的形态切分技术已深入多个应用场景。搜索引擎通过集成该技术提升查询扩展精度,机器翻译系统借助词素级分析改善低频词处理能力。在教育科技领域,基于该数据集训练的模型可自动生成词汇结构图解,辅助第二语言学习者理解英语构词法。数字人文研究则利用其词素标注开展历时语言演变分析。
衍生相关工作
该数据集催生了系列创新研究,例如基于注意力机制的端到端切分模型MorphSegNet,其通过双向LSTM架构实现词素边界预测。后续研究Morpheme-BERT则探索了预训练语言模型在形态切分中的迁移学习潜力。另有工作结合条件随机场与神经网络,构建了融合词典知识的混合切分系统,这些衍生成果持续推动着计算形态学与深度学习交叉领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作