five

面向智慧教学的高精度德语多维形态与语义特征数据库

收藏
上海市数据产品知识产权管理平台2026-01-05 更新2026-01-06 收录
下载链接:
https://sjdj.sipa.sh.gov.cn/#/home/view/publicNotice
下载链接
链接失效反馈
官方服务:
资源简介:
1. 存储与组织方式: 本产品采用跨平台的JSON格式物理存储,UTF-8 编码。逻辑上构建为键值对哈希映射(Key-Value Hash Map)结构,通过非关系型文档模型实现 O(1) 时间复杂度的毫秒级检索,专为高并发词法分析场景优化。 2. 字段定义与属性: 数据以“单词拼写”为唯一主键索引(JSON Key),每个数据单元包含以下核心字段: 主键: Word_Form(String, Unique),即德语单词的具体书写形式(含大小写变体)。 属性字段: lemma(String):经算法还原的词典原形,用于词汇归一化; pos(String, Categorical):基于通用依存树库 (UD) 标准的词性标记(如 VERB, NOUN),支持句法分析; is_particle(Boolean):德语可分动词前缀粒子标识,是处理复杂语序的关键特征; prob(Float, 4位精度):基于大规模语料的对数概率值,用于量化文本难度。 3. 扩展性: 具备 Schema-less 特性,支持动态扩展形特征(Morph)或词义向量字段。
提供机构:
贺致远
创建时间:
2026-01-05
搜集汇总
背景与挑战
背景概述
该数据集是一个专为德语智慧教学优化的高精度语言数据库,采用JSON格式存储和键值对哈希映射结构,实现毫秒级检索,适用于高并发词法分析场景。它以德语单词拼写为主键,包含词典原形、词性标记、可分动词前缀标识和对数概率值等核心字段,支持动态扩展形态或语义特征,为教学应用提供全面的语言分析支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作