kapampangan-dictionary-embeddings
收藏Kapampangan Dictionary Embeddings 数据集概述
数据集基本信息
- 名称: Kapampangan Dictionary Embeddings
- 描述: 首个专用的Kapampangan句子嵌入数据集。包含来自18世纪30年代Kapampangan-英语词典的4,971个词条,并利用LLM生成的语义元数据和6个模型的预计算嵌入进行了丰富。
- 主要用途: 为Kapampangan词汇的语义搜索、检索和聚类而设计。包含一个100查询的检索基准和8个检索改进实验的评估结果。
- 语言: Kapampangan (pam), 英语 (en)
- 许可证: CC BY 4.0
- 任务类别: 特征提取, 句子相似度
- 标签: 语义搜索, 句子嵌入, 低资源语言, 词典, Kapampangan, 菲律宾语言, 南岛语系, sentence-transformers
- 数据规模: 1K<n<10K
配置与数据文件
数据集提供以下配置:
- default: 包含
train和raw分割。 - source: 包含
train分割,为原始未清理数据。 - enriched: 包含
train分割,为LLM丰富的元数据,无嵌入。 - api_embeddings: 包含
original和english_only分割,为6个基于API模型的预计算嵌入。
数据模式
文本字段
kapampangan_word: 现代Kapampangan拼写(从18世纪30年代正字法规范化而来)。english_meaning: 英语翻译/定义。original_word: 原始的18世纪30年代受西班牙语影响的拼写(当与规范化拼写不同时)。category: 原始词典的主题分组(52个唯一值,存在于约24%的词条中)。
丰富字段(LLM生成)
synonyms: 英语同义词和近义词列表。related_concepts: 语义相关的英语术语列表。paraphrases: 含义的替代英语措辞列表。categories: 来自封闭的27个标签集的语义类别标签列表。usage_contexts: 单词可能出现的示例上下文列表。search_queries: 用户可能输入的预期搜索查询列表。
嵌入列(本地模型)
所有嵌入均为L2归一化(单位向量)。余弦相似度等于点积。
| 列名 | 模型 | 维度 | 是否多语言 |
|---|---|---|---|
emb_stella_400m |
NovaSearch/stella_en_400M_v5 |
1024 | 否(英语) |
emb_multilingual_e5_large |
intfloat/multilingual-e5-large |
1024 | 是(100种语言) |
emb_multilingual_e5_small |
intfloat/multilingual-e5-small |
384 | 是(100种语言) |
emb_bge_m3 |
BAAI/bge-m3 |
1024 | 是(100+种语言) |
emb_bge_base_en_v1_5 |
BAAI/bge-base-en-v1.5 |
768 | 否(英语) |
emb_all_minilm_l6_v2 |
sentence-transformers/all-MiniLM-L6-v2 |
384 | 否(英语) |
API嵌入列(api_embeddings配置)
| 列名 | 模型 | 维度 | 提供商 |
|---|---|---|---|
emb_gemini_001 |
gemini-embedding-001 |
3072 | Google AI |
emb_gemini_2 |
gemini-embedding-2-preview |
3072 | Google AI |
emb_voyage_3 |
voyage-3 |
1024 | Voyage AI |
emb_openai_3_large |
text-embedding-3-large |
3072 | OpenAI |
emb_qwen3_8b |
Qwen3-Embedding-8B |
4096 | Fireworks AI |
emb_jina_v5_nano |
jina-embeddings-v5-text-nano |
768 | Jina AI |
模型使用建议
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 最佳整体检索 | gemini-embedding-001 (API) |
最高MRR (0.618),比e5-large基线高24%。在关键词(0.784)和语义(0.650)查询上表现最佳。 |
| 最佳本地双编码器 | stella_en_400M_v5 |
最佳本地模型MRR (0.539),无API依赖。 |
| 最佳重排序器组合 | gemini-embedding-001 + qwen3-reranker-8b |
MRR 0.651(比基线高31%),最佳整体流程。 |
| 最佳本地流程 | stella_en_400M_v5 + bge-reranker-v2-m3 |
MRR 0.596(比基线高20%),无API依赖。 |
| 精确Kapampangan查找 | bge-base-en-v1.5 |
在精确查询上MRR为0.950,适合边缘部署。 |
| 轻量级/移动端 | all-MiniLM-L6-v2 |
2200万参数,与5.68亿参数的bge-m3表现相当(42 vs 41查询获胜)。 |
| 不推荐 | bge-m3 |
尽管是最大模型,但整体表现最差。在其他模型获得排名1的查询上存在灾难性失败。 |
评估结果
使用100个手工制作的查询进行基准测试,涵盖4个类别:精确Kapampangan查找(20)、英语关键词(30)、语义/描述性(30)、Kapampangan-to-Kapampangan(20)。
仅双编码器
| 模型 | 类型 | R@1 | R@5 | R@20 | MRR |
|---|---|---|---|---|---|
| gemini-embedding-001 | API | 0.550 | 0.700 | 0.740 | 0.618 |
| gemini-embedding-2-preview | API | 0.490 | 0.690 | 0.740 | 0.570 |
| stella_en_400M_v5 | 本地 (400M) | 0.440 | 0.620 | 0.740 | 0.539 |
| voyage-3 | API | 0.470 | 0.630 | 0.700 | 0.536 |
| text-embedding-3-large | API | 0.420 | 0.630 | 0.710 | 0.508 |
| jina-embeddings-v5-text-nano | API | 0.430 | 0.580 | 0.710 | 0.498 |
| multilingual-e5-large | 本地 (560M) | 0.420 | 0.560 | 0.670 | 0.497 |
| qwen3-embedding-8b | API | 0.370 | 0.560 | 0.690 | 0.454 |
| bge-base-en-v1.5 | 本地 (109M) | 0.320 | 0.510 | 0.650 | 0.413 |
| multilingual-e5-small | 本地 (118M) | 0.310 | 0.540 | 0.610 | 0.410 |
| all-MiniLM-L6-v2 | 本地 (22M) | 0.300 | 0.530 | 0.670 | 0.397 |
| bge-m3 | 本地 (568M) | 0.250 | 0.490 | 0.570 | 0.356 |
最佳流程(双编码器 + 重排序器)
| 流程 | R@1 | R@5 | R@20 | MRR |
|---|---|---|---|---|
| gemini-001 → qwen3-reranker-8b (top-50) | 0.620 | 0.680 | 0.740 | 0.651 |
| gemini-001 → voyage-rerank-2.5 (top-50) | 0.600 | 0.690 | 0.730 | 0.646 |
| gemini-001 → cohere-rerank-v4.0-pro (top-50) | 0.610 | 0.700 | 0.730 | 0.643 |
| gemini-001 (仅双编码器) | 0.550 | 0.700 | 0.740 | 0.618 |
| stella_400M → bge-reranker-v2-m3 (top-50) | 0.520 | 0.640 | 0.740 | 0.596 |
| e5-large 基线 | 0.420 | 0.560 | 0.670 | 0.497 |
按类别MRR
| 模型 | 精确 | 关键词 | 语义 | Kap-to-kap |
|---|---|---|---|---|
| gemini-embedding-001 | 0.932 | 0.784 | 0.650 | 0.007 |
| gemini-embedding-2-preview | 0.925 | 0.756 | 0.514 | 0.022 |
| stella_en_400M_v5 | 0.941 | 0.697 | 0.368 | 0.008 |
| voyage-3 | 0.870 | 0.657 | 0.547 | 0.005 |
| text-embedding-3-large | 0.927 | 0.648 | 0.425 | 0.006 |
| jina-embeddings-v5-text-nano | 0.714 | 0.748 | 0.431 | 0.006 |
| multilingual-e5-large | 0.930 | 0.650 | 0.378 | 0.012 |
| bge-base-en-v1.5 | 0.950 | 0.489 | 0.251 | 0.003 |
| multilingual-e5-small | 0.678 | 0.601 | 0.313 | 0.003 |
| all-MiniLM-L6-v2 | 0.775 | 0.580 | 0.225 | 0.001 |
| bge-m3 | 0.620 | 0.509 | 0.256 | 0.010 |
检索改进实验
进行了八项实验以改进原始基线之外的检索:
- E1: 重排序器: 交叉编码器重排序改进了检索。在stella上MRR增加0.057。将较弱的双编码器均衡至约0.50。
- E2: 仅英语文本: 从嵌入文本中移除Kapampangan。破坏了精确查找(bge-base精确度:0.950 → 0.319)。净负面影响。
- E3: 新英语模型: stella/nomic可能优于e5-large。stella_400M获胜(0.539 vs 0.497)。nomic令人失望(0.409)。
- E4: 查询扩展: LLM扩展的查询改进了检索。整体有害(MRR −0.048)。LLM幻觉出错误的Kapampangan含义。
- E5: 重排序器比较: 哪个重排序器与stella配合最佳?bge-reranker-v2-m3是唯一改进stella的。ms-marco-MiniLM实际上损害了它。
- E6: MTEB排行榜模型: 更高的MTEB分数 = 更好的检索?否。pplx-embed (0.445), Qwen3-0.6B (0.451), embeddinggemma (0.468) 均表现不如stella (0.539)。MTEB检索分数对此任务的预测能力差。
- E7: 基于API的模型: 付费API模型击败本地模型?gemini-embedding-001成为新的最佳(MRR 0.618,比基线高24%)。仅英语文本实际上有助于gemini-001。gemini-001击败gemini-2-preview(0.618 vs 0.570)。
- E8: 重排序器探索: API重排序器是否改进gemini-001?qwen3-reranker-8b是最佳的(+0.034 MRR)。所有API重排序器都有帮助;本地bge重排序器损害gemini(-0.023)。最佳流程:MRR 0.651。
已知限制
- Kapampangan-to-Kapampangan检索失败: 所有20个kap-to-kap查询在所有模型上得分约0。没有现成的模型理解Kapampangan语义关系。模型通过英语丰富文本检索,而非Kapampangan理解。
- 英语单词冲突: 一些规范化的Kapampangan单词与英语单词匹配(例如,“API” = 火,“MATE” = 死亡)。嵌入可能偏向英语含义。存在497个此类冲突;只有一个(BANGLE)导致了实质性的丰富错误(已修复)。
- 评估基准测试检索,而非理解: 高Recall@K意味着模型浮现了正确的词条——LLM丰富承担了繁重的工作,而非Kapampangan理解。
- 丰富是LLM生成并经过抽查: 所有丰富字段(同义词、释义、类别等)均由Claude Haiku 4.5根据英语定义生成,并由母语为Kapampangan的人抽查,但未详尽验证。对检索有用,但不是权威的语言学数据,特别是对于文化特定或古老的术语。
- 大写标题词: 词条以大写形式存储。这是有意为之——测试小写会降低检索性能(MRR 0.497 → 0.451)。保持查询为自然大小写。
南岛语系同源词效应
具有泛南岛语系同源词(与Tagalog、马来语、印尼语共享)的Kapampangan单词,与独特的Kapampangan单词相比,从嵌入模型中获得3.2%更高的跨语言对齐。模型利用了训练数据中来自相关语言的偶然子词重叠。
源数据
源自Fray Diego Bergaño, O.S.A. (1732) 的 Vocabulario de la lengua Pampangan,这是一位西班牙奥古斯丁传教士的Kapampangan词典——现存最古老的Kapampangan语言研究之一。
英语翻译由Fray Venancio Q. Samson完成,2007年由Holy Angel University(菲律宾邦板牙省安吉利斯市)的Juan D. Nepomuceno Kapampangan研究中心出版,并得到国家文化艺术委员会(NCCA)的支持。ISBN 978-971-93672-1-5。NBDB国家图书奖(2007年)获奖者。
约40%的词条已从18世纪30年代受西班牙语影响的拼写规范化为现代Kapampangan。原始拼写保存在original_word字段中。
数据处理流程
- 清理 — 验证、去重、规范化正字法(4,976原始 → 4,971清理)。
- 丰富 — 通过Batch API的Claude Haiku 4.5为每个词条生成语义元数据(约5美元,4,971/4,971成功)。
- 嵌入 — 6个句子转换器模型,在Apple Silicon上约25分钟。
- 评估 — 100个手工制作的查询,每个模型和类别的Recall@1/5/20 + MRR。
- 实验 — 8个检索改进实验(重排序、文本变体、新模型、查询扩展、MTEB排行榜模型、基于API的模型、API重排序器)。
许可证
CC BY 4.0。源词典(1732年)属于公共领域。LLM丰富字段和嵌入是本项目的原创内容。
引用
bibtex @dataset{manaloto2026kapampangan, title={Kapampangan Dictionary Embeddings}, author={Manaloto, Keith}, year={2026}, publisher={HuggingFace},




