kapampangan-dictionary-embeddings

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/keithmanaloto/kapampangan-dictionary-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

Kapampangan词典嵌入数据集是首个专为Kapampangan语言设计的句子嵌入数据集，包含来自18世纪30年代Kapampangan-英语词典的4,971个条目。数据集通过LLM生成的语义元数据（如近义词、相关概念、释义等）和6种模型的预计算嵌入进行了丰富。该数据集适用于语义搜索、检索和聚类任务，特别针对低资源语言场景。数据集包含原始词典文本字段、LLM生成的丰富字段以及多种嵌入模型的结果。此外，还提供了100个查询的检索基准测试和8个检索改进实验的结果。数据集来源于1732年的《Vocabulario de la lengua Pampangan》词典，经过清洗、去重和拼写规范化处理，并采用CC BY 4.0许可发布。

创建时间：

2026-03-21

原始信息汇总

Kapampangan Dictionary Embeddings 数据集概述

数据集基本信息

名称: Kapampangan Dictionary Embeddings
描述: 首个专用的Kapampangan句子嵌入数据集。包含来自18世纪30年代Kapampangan-英语词典的4,971个词条，并利用LLM生成的语义元数据和6个模型的预计算嵌入进行了丰富。
主要用途: 为Kapampangan词汇的语义搜索、检索和聚类而设计。包含一个100查询的检索基准和8个检索改进实验的评估结果。
语言: Kapampangan (pam), 英语 (en)
许可证: CC BY 4.0
任务类别: 特征提取, 句子相似度
标签: 语义搜索, 句子嵌入, 低资源语言, 词典, Kapampangan, 菲律宾语言, 南岛语系, sentence-transformers
数据规模: 1K<n<10K

配置与数据文件

数据集提供以下配置：

default: 包含 train 和 raw 分割。
source: 包含 train 分割，为原始未清理数据。
enriched: 包含 train 分割，为LLM丰富的元数据，无嵌入。
api_embeddings: 包含 original 和 english_only 分割，为6个基于API模型的预计算嵌入。

数据模式

文本字段

kapampangan_word: 现代Kapampangan拼写（从18世纪30年代正字法规范化而来）。
english_meaning: 英语翻译/定义。
original_word: 原始的18世纪30年代受西班牙语影响的拼写（当与规范化拼写不同时）。
category: 原始词典的主题分组（52个唯一值，存在于约24%的词条中）。

丰富字段（LLM生成）

synonyms: 英语同义词和近义词列表。
related_concepts: 语义相关的英语术语列表。
paraphrases: 含义的替代英语措辞列表。
categories: 来自封闭的27个标签集的语义类别标签列表。
usage_contexts: 单词可能出现的示例上下文列表。
search_queries: 用户可能输入的预期搜索查询列表。

嵌入列（本地模型）

所有嵌入均为L2归一化（单位向量）。余弦相似度等于点积。

列名	模型	维度	是否多语言
`emb_stella_400m`	`NovaSearch/stella_en_400M_v5`	1024	否（英语）
`emb_multilingual_e5_large`	`intfloat/multilingual-e5-large`	1024	是（100种语言）
`emb_multilingual_e5_small`	`intfloat/multilingual-e5-small`	384	是（100种语言）
`emb_bge_m3`	`BAAI/bge-m3`	1024	是（100+种语言）
`emb_bge_base_en_v1_5`	`BAAI/bge-base-en-v1.5`	768	否（英语）
`emb_all_minilm_l6_v2`	`sentence-transformers/all-MiniLM-L6-v2`	384	否（英语）

API嵌入列（`api_embeddings`配置）

列名	模型	维度	提供商
`emb_gemini_001`	`gemini-embedding-001`	3072	Google AI
`emb_gemini_2`	`gemini-embedding-2-preview`	3072	Google AI
`emb_voyage_3`	`voyage-3`	1024	Voyage AI
`emb_openai_3_large`	`text-embedding-3-large`	3072	OpenAI
`emb_qwen3_8b`	`Qwen3-Embedding-8B`	4096	Fireworks AI
`emb_jina_v5_nano`	`jina-embeddings-v5-text-nano`	768	Jina AI

模型使用建议

使用场景	推荐模型	原因
最佳整体检索	`gemini-embedding-001` (API)	最高MRR (0.618)，比e5-large基线高24%。在关键词(0.784)和语义(0.650)查询上表现最佳。
最佳本地双编码器	`stella_en_400M_v5`	最佳本地模型MRR (0.539)，无API依赖。
最佳重排序器组合	`gemini-embedding-001` + `qwen3-reranker-8b`	MRR 0.651（比基线高31%），最佳整体流程。
最佳本地流程	`stella_en_400M_v5` + `bge-reranker-v2-m3`	MRR 0.596（比基线高20%），无API依赖。
精确Kapampangan查找	`bge-base-en-v1.5`	在精确查询上MRR为0.950，适合边缘部署。
轻量级/移动端	`all-MiniLM-L6-v2`	2200万参数，与5.68亿参数的bge-m3表现相当（42 vs 41查询获胜）。
不推荐	`bge-m3`	尽管是最大模型，但整体表现最差。在其他模型获得排名1的查询上存在灾难性失败。

评估结果

使用100个手工制作的查询进行基准测试，涵盖4个类别：精确Kapampangan查找(20)、英语关键词(30)、语义/描述性(30)、Kapampangan-to-Kapampangan(20)。

仅双编码器

模型	类型	R@1	R@5	R@20	MRR
gemini-embedding-001	API	0.550	0.700	0.740	0.618
gemini-embedding-2-preview	API	0.490	0.690	0.740	0.570
stella_en_400M_v5	本地 (400M)	0.440	0.620	0.740	0.539
voyage-3	API	0.470	0.630	0.700	0.536
text-embedding-3-large	API	0.420	0.630	0.710	0.508
jina-embeddings-v5-text-nano	API	0.430	0.580	0.710	0.498
multilingual-e5-large	本地 (560M)	0.420	0.560	0.670	0.497
qwen3-embedding-8b	API	0.370	0.560	0.690	0.454
bge-base-en-v1.5	本地 (109M)	0.320	0.510	0.650	0.413
multilingual-e5-small	本地 (118M)	0.310	0.540	0.610	0.410
all-MiniLM-L6-v2	本地 (22M)	0.300	0.530	0.670	0.397
bge-m3	本地 (568M)	0.250	0.490	0.570	0.356

最佳流程（双编码器 + 重排序器）

流程	R@1	R@5	R@20	MRR
gemini-001 → qwen3-reranker-8b (top-50)	0.620	0.680	0.740	0.651
gemini-001 → voyage-rerank-2.5 (top-50)	0.600	0.690	0.730	0.646
gemini-001 → cohere-rerank-v4.0-pro (top-50)	0.610	0.700	0.730	0.643
gemini-001 (仅双编码器)	0.550	0.700	0.740	0.618
stella_400M → bge-reranker-v2-m3 (top-50)	0.520	0.640	0.740	0.596
e5-large 基线	0.420	0.560	0.670	0.497

按类别MRR

模型	精确	关键词	语义	Kap-to-kap
gemini-embedding-001	0.932	0.784	0.650	0.007
gemini-embedding-2-preview	0.925	0.756	0.514	0.022
stella_en_400M_v5	0.941	0.697	0.368	0.008
voyage-3	0.870	0.657	0.547	0.005
text-embedding-3-large	0.927	0.648	0.425	0.006
jina-embeddings-v5-text-nano	0.714	0.748	0.431	0.006
multilingual-e5-large	0.930	0.650	0.378	0.012
bge-base-en-v1.5	0.950	0.489	0.251	0.003
multilingual-e5-small	0.678	0.601	0.313	0.003
all-MiniLM-L6-v2	0.775	0.580	0.225	0.001
bge-m3	0.620	0.509	0.256	0.010

检索改进实验

进行了八项实验以改进原始基线之外的检索：

E1: 重排序器: 交叉编码器重排序改进了检索。在stella上MRR增加0.057。将较弱的双编码器均衡至约0.50。
E2: 仅英语文本: 从嵌入文本中移除Kapampangan。破坏了精确查找（bge-base精确度：0.950 → 0.319）。净负面影响。
E3: 新英语模型: stella/nomic可能优于e5-large。stella_400M获胜（0.539 vs 0.497）。nomic令人失望（0.409）。
E4: 查询扩展: LLM扩展的查询改进了检索。整体有害（MRR −0.048）。LLM幻觉出错误的Kapampangan含义。
E5: 重排序器比较: 哪个重排序器与stella配合最佳？bge-reranker-v2-m3是唯一改进stella的。ms-marco-MiniLM实际上损害了它。
E6: MTEB排行榜模型: 更高的MTEB分数 = 更好的检索？否。pplx-embed (0.445), Qwen3-0.6B (0.451), embeddinggemma (0.468) 均表现不如stella (0.539)。MTEB检索分数对此任务的预测能力差。
E7: 基于API的模型: 付费API模型击败本地模型？gemini-embedding-001成为新的最佳（MRR 0.618，比基线高24%）。仅英语文本实际上有助于gemini-001。gemini-001击败gemini-2-preview（0.618 vs 0.570）。
E8: 重排序器探索: API重排序器是否改进gemini-001？qwen3-reranker-8b是最佳的（+0.034 MRR）。所有API重排序器都有帮助；本地bge重排序器损害gemini（-0.023）。最佳流程：MRR 0.651。

已知限制

Kapampangan-to-Kapampangan检索失败: 所有20个kap-to-kap查询在所有模型上得分约0。没有现成的模型理解Kapampangan语义关系。模型通过英语丰富文本检索，而非Kapampangan理解。
英语单词冲突: 一些规范化的Kapampangan单词与英语单词匹配（例如，“API” = 火，“MATE” = 死亡）。嵌入可能偏向英语含义。存在497个此类冲突；只有一个（BANGLE）导致了实质性的丰富错误（已修复）。
评估基准测试检索，而非理解: 高Recall@K意味着模型浮现了正确的词条——LLM丰富承担了繁重的工作，而非Kapampangan理解。
丰富是LLM生成并经过抽查: 所有丰富字段（同义词、释义、类别等）均由Claude Haiku 4.5根据英语定义生成，并由母语为Kapampangan的人抽查，但未详尽验证。对检索有用，但不是权威的语言学数据，特别是对于文化特定或古老的术语。
大写标题词: 词条以大写形式存储。这是有意为之——测试小写会降低检索性能（MRR 0.497 → 0.451）。保持查询为自然大小写。

南岛语系同源词效应

具有泛南岛语系同源词（与Tagalog、马来语、印尼语共享）的Kapampangan单词，与独特的Kapampangan单词相比，从嵌入模型中获得3.2%更高的跨语言对齐。模型利用了训练数据中来自相关语言的偶然子词重叠。

源数据

源自Fray Diego Bergaño, O.S.A. (1732) 的 Vocabulario de la lengua Pampangan，这是一位西班牙奥古斯丁传教士的Kapampangan词典——现存最古老的Kapampangan语言研究之一。英语翻译由Fray Venancio Q. Samson完成，2007年由Holy Angel University（菲律宾邦板牙省安吉利斯市）的Juan D. Nepomuceno Kapampangan研究中心出版，并得到国家文化艺术委员会（NCCA）的支持。ISBN 978-971-93672-1-5。NBDB国家图书奖（2007年）获奖者。约40%的词条已从18世纪30年代受西班牙语影响的拼写规范化为现代Kapampangan。原始拼写保存在original_word字段中。

数据处理流程

清理 — 验证、去重、规范化正字法（4,976原始 → 4,971清理）。
丰富 — 通过Batch API的Claude Haiku 4.5为每个词条生成语义元数据（约5美元，4,971/4,971成功）。
嵌入 — 6个句子转换器模型，在Apple Silicon上约25分钟。
评估 — 100个手工制作的查询，每个模型和类别的Recall@1/5/20 + MRR。
实验 — 8个检索改进实验（重排序、文本变体、新模型、查询扩展、MTEB排行榜模型、基于API的模型、API重排序器）。

许可证

CC BY 4.0。源词典（1732年）属于公共领域。LLM丰富字段和嵌入是本项目的原创内容。

引用

bibtex @dataset{manaloto2026kapampangan, title={Kapampangan Dictionary Embeddings}, author={Manaloto, Keith}, year={2026}, publisher={HuggingFace},

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建专用嵌入数据集面临独特挑战。本数据集源自1732年出版的《Vocabulario de la lengua Pampangan》历史词典，通过系统化流程将4971个词条转化为结构化嵌入表示。首先对原始词条进行清洗与去重，并依据现代拼写规则进行正字法规范化。随后采用“语义增强桥接”策略，利用Claude Haiku 4.5大语言模型为每个词条生成包括同义词、语义类别、使用语境等英文元数据，形成机器可理解的语义描述层。最后通过六种预训练嵌入模型生成标准化向量表示，并额外提供六种API模型的预计算嵌入，构建起连接卡潘潘甘语词汇与现代化嵌入技术的桥梁。

使用方法

该数据集为卡潘潘甘语语义检索任务提供了完整的解决方案框架。用户可通过HuggingFace数据集库直接加载不同配置，其中标准配置包含全部文本字段与六种本地模型嵌入。进行语义检索时，推荐采用性能最优的stella_en_400M_v5模型或API模型gemini-embedding-001，通过计算查询向量与预存嵌入的余弦相似度实现高效检索。对于需要自定义嵌入的场景，可利用增强元数据字段构建个性化文本表示。使用E5系列模型时需注意查询前缀的正确配置，错误使用将导致性能下降。数据集支持检索增强生成、文本分类、词汇聚类等多种应用场景，其增强桥接方法可迁移至其他低资源语言词典的嵌入构建。

背景与挑战

背景概述

Kapampangan Dictionary Embeddings 数据集是首个专门针对卡帕姆潘甘语的句子嵌入资源，其构建源于对濒危语言数字保存的迫切需求。该数据集由研究者Keith Manaloto于2026年创建，核心素材源自18世纪30年代西班牙传教士Diego Bergaño编纂的卡帕姆潘甘语-英语词典，并经由现代语言技术进行深度加工。其核心研究问题聚焦于如何为低资源语言构建有效的语义检索系统，通过为大语言模型生成英语语义元数据作为桥梁，克服现有嵌入模型对卡帕姆潘甘语理解不足的障碍。该数据集的发布为南岛语系低资源语言的数字人文研究、词典学应用及跨语言信息检索提供了重要的基准资源，推动了语言技术向更广泛语言生态的包容性发展。

当前挑战

该数据集旨在解决低资源语言语义检索这一核心领域问题，其面临的首要挑战是模型对目标语言本身缺乏理解能力，导致纯粹的卡帕姆潘甘语到卡帕姆潘甘语的检索性能近乎失效。构建过程中的挑战则具体体现在多个层面：原始历史词典的拼写规范化处理复杂；依赖大语言模型自动生成的英语语义元数据在覆盖广度与语言学权威性之间存在权衡，可能引入文化特异性术语的释义偏差；评估基准的构建需精心设计涵盖精确查询、关键词、语义描述及跨语言查询等多种类型，以全面衡量模型性能；此外，不同嵌入模型对查询前缀的要求各异，错误使用会 silently 导致结果退化，为实际应用增添了技术复杂性。

常用场景

经典使用场景

在低资源语言处理领域，该数据集为卡帕潘甘语词汇语义检索提供了标准化基准。其核心应用场景在于构建跨语言语义搜索系统，通过将卡帕潘甘语词汇转化为英语语义元数据，再利用预训练嵌入模型实现高效检索。数据集精心设计的评估体系包含四类查询场景，为模型选择提供了科学依据，特别在精确查询场景下，bge-base-en-v1.5模型展现出0.950的优异表现。

解决学术问题

该数据集有效解决了低资源语言缺乏专用嵌入模型的学术困境。通过创新的“语义增强桥接”方法，将卡帕潘甘语词汇与英语语义元数据关联，突破了现有模型对低资源语言理解不足的技术瓶颈。这一范式为南岛语系及其他低资源语言的数字化保存提供了可复现的技术路径，推动了计算语言学在语言多样性保护领域的方法论创新。

实际应用

在实际应用层面，该数据集已成功部署于卡帕潘甘语学习应用程序的词典检索模块。其嵌入向量可直接应用于语义搜索、文档聚类和跨语言信息检索等场景。教育科技领域可利用该资源开发智能语言学习工具，文化遗产机构则可基于此构建数字词典系统。数据集提供的多模型嵌入方案为不同计算环境下的应用部署提供了灵活选择。

数据集最近研究