tamil-morphological-benchmark

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/Tamil-ai/tamil-morphological-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

泰米尔语形态泛化基准（TAMIL-MORPH）是首个针对泰米尔语形态学规则的泛化能力评估数据集，包含1,030个测试用例，覆盖9个主要形态学类别。该数据集旨在评估大型语言模型是否真正理解泰米尔语的形态学规则，而非仅记忆表面形式。数据集包含名词格后缀、复数+格组合、动词变位、连音变化、敬语形式、否定形式、复合词、条件/因果后缀及新颖组合等多个类别。每个测试用例以结构化JSON格式存储，包含词根、词义及预期的形态变化形式。数据集适用于文本生成任务，特别针对泰米尔语及其他粘着语的形态学理解研究。基准测试结果以精确匹配、部分匹配和错误三种评分标准进行评价。所有测试用例均经过有限状态转换器分析、Stanza NLP形态学解析器验证及人工规则检查。

创建时间：

2026-03-08

原始信息汇总

Tamil Morphological Generalization Benchmark (TAMIL-MORPH) 数据集概述

基本信息

数据集名称: Tamil Morphological Generalization Benchmark (TAMIL-MORPH)
语言: 泰米尔语 (ta)
许可证: CC BY-SA 4.0
任务类别: 文本生成
标签: 泰米尔语、形态学、基准测试、评估、语言学、达罗毗荼语系、黏着语
数据规模: 1K < n < 10K
发布年份: 2026年

基准测试概述

这是首个针对泰米尔语的形态学泛化基准测试，包含1,030个测试用例，涵盖9个类别，旨在评估大型语言模型是真正理解泰米尔语形态规则，还是仅记忆表面形式。

测试类别与规模

类别	测试用例数量	描述
格后缀 (வேற்றுமை)	240	40个名词词根上的6种语法格
复数 + 格 (பன்மை)	~160	带格标记的复数形式
动词变位 (வினைத்திரிபு)	~210	动词词根上的7种人称-时态组合
连音 (புணர்ச்சி)	~50	词边界处的语音变化
敬语形式 (மரியாதை)	~90	非正式/正式/高度尊敬语体
否定形式 (எதிர்மறை)	~90	现在/过去/将来时否定形式
复合词 (கூட்டுச்சொல்)	~50	词语连接规则
条件/因果 (நிபந்தனை)	~60	条件与因果后缀
新颖组合 (புதிய வடிவங்கள்)	~80	训练中从未出现的多后缀形式
总计	1,030

基线结果

模型	总体准确率
GPT-4o-mini	54.0%

文件列表

Benchmarkdata.md -- 完整的基准测试数据（Markdown中的JSON数组）
morph_benchmark_eval.py -- 完整的评估脚本（支持本地HF模型、OpenAI、Google Gemini后端）
baselines/gpt-4o-mini_results.json -- GPT-4o-mini的详细逐测试结果
kaggle_benchmark.ipynb -- 可直接运行的Kaggle基准测试笔记本
runpod_benchmark.py -- RunPod GPU基准测试脚本

数据格式

每个类别包含结构化的JSON数据，包含词根、词义和预期的形态形式： json { "root": "வீடு", "root_meaning": "house", "forms": { "accusative": {"tamil": "வீட்டை", "meaning": "the house (object)"}, "dative": {"tamil": "வீட்டுக்கு", "meaning": "to the house"}, "locative": {"tamil": "வீட்டில்", "meaning": "in the house"} } }

评分标准

1.0分 -- 完全匹配（经过泰米尔语文本规范化后）
0.5分 -- 部分匹配（预测结果是预期结果的子字符串）
0.0分 -- 错误

验证方法

所有1,030个测试用例均通过以下方式验证：

有限状态转换器 (FST) 分析
Stanza NLP形态分析器
手动规则验证

引用信息

bibtex @misc{tamilmorph2026, title={A Thousand Language Problem: Morphological Understanding in Linguistic AI}, author={Tamil-AI}, year={2026}, publisher={HuggingFace}, url={https://huggingface.co/datasets/Tamil-ai/tamil-morphological-benchmark} }

搜集汇总

数据集介绍

构建方式

在泰米尔语形态学研究的背景下，该数据集的构建遵循了系统化的语言学原则。构建过程首先依据泰米尔语作为达罗毗荼语系黏着语的特性，精心选取了九个核心形态学类别，包括格后缀、复数与格结合、动词变位、连音变化、敬语形式、否定形式、复合词、条件与因果后缀以及新颖组合。每个类别均基于语言学规则生成测试用例，共计1030个条目，所有数据均通过有限状态转录器分析、Stanza自然语言处理形态学解析器以及人工规则验证三重校验，确保了形态学形式的准确性与规则一致性。

特点

该数据集作为首个针对泰米尔语的形态学泛化基准，其显著特点在于专注于评估语言模型对深层形态学规则的理解而非表面形式的记忆。数据集覆盖了泰米尔语中关键且多样的形态学现象，如格标记的复杂组合、动词的人称-时态变位以及连音等音系过程，并特别设计了训练数据中未曾出现的新颖多后缀组合，以严格测试模型的泛化能力。其结构化JSON格式为每个词根提供了泰米尔语形式及英文释义，并配备了标准化的评估脚本与计分规则，支持对本地模型及多种API后端的性能评测。

使用方法

为有效利用该基准进行评估，研究人员可通过提供的Python脚本便捷地运行测试。脚本支持多种后端，包括OpenAI API、Google Gemini以及本地的Hugging Face模型，用户可通过命令行参数指定模型与后端，或一键运行所有预设配置。程序化加载数据集时，可借助`huggingface_hub`库下载Markdown文件并解析其中的JSON数据块。评估采用精确匹配、部分匹配和错误三级计分制，并进行了泰米尔语文本规范化处理，确保了评测结果的客观性与可重复性，为深入探究语言模型在黏着语形态学生成方面的能力提供了标准化工具。

背景与挑战

背景概述

泰米尔语形态学泛化基准（Tamil Morphological Generalization Benchmark）由Tamil-AI研究团队于2026年创建，旨在应对大语言模型在形态丰富语言理解上的核心研究问题。该数据集聚焦于泰米尔语这一达罗毗荼语系的高度黏着语，通过涵盖格后缀、动词变位、敬语形式等九大类别共1030个测试用例，系统评估模型对深层形态规则的掌握能力，而非对表面形式的机械记忆。作为首个针对泰米尔语形态泛化的基准，它不仅填补了该语言在生成性形态评估领域的空白，也为土耳其语、芬兰语等其他黏着语的类似研究提供了可迁移的范式，推动了语言人工智能在形态学理解方面的理论进展。

当前挑战

该数据集致力于解决泰米尔语形态生成这一领域核心挑战，即如何让模型超越表层形式的记忆，真正内化其复杂的黏着形态规则，如格标记组合、动词人称-时态屈折及语流音变等。在构建过程中，研究团队面临多重挑战：首先，泰米尔语形态系统高度规则化却组合繁多，需设计既能覆盖典型模式又包含新颖未见组合的测试用例；其次，数据验证需依赖有限状态转录器分析与人工规则核查，确保每个案例的形态正确性；此外，评估需克服文本归一化与部分匹配的评分难题，以精确区分模型的规则应用能力与记忆效应。

常用场景

衍生相关工作

该基准的发布催生了一系列围绕泰米尔语及同类黏着语模型评估的衍生研究。相关工作包括将其评估框架迁移应用于土耳其语、芬兰语、匈牙利语和韩语等其他黏着语的形态分析，验证了其方法论的可移植性。此外，基于该基准的发现，学术界进一步开展了针对特定形态类别（如复合词构成、否定形式）的模型微调策略研究，以及探索数据增强技术以提升模型在罕见词缀组合上的泛化能力。

数据集最近研究