Bengali LLM benchmark datasets
收藏arXiv2025-07-31 更新2025-08-07 收录
下载链接:
https://huggingface.co/collections/bengaliAI/bengali-llm-benchmark-datasets-683bd5999bb4c70bc9e83310
下载链接
链接失效反馈官方服务:
资源简介:
本研究针对孟加拉语在自然语言处理研究中的代表性不足问题,构建了一系列高质量的孟加拉语基准数据集,并提供了翻译流程和代码库,以促进可重复研究和未来孟加拉语NLP评估的进展。数据集涵盖了常识、科学、数学和多领域等类别,旨在解决孟加拉语NLP研究中缺乏标准化评估数据集的问题,并促进孟加拉语NLP模型的开发和评估。
To address the underrepresentation of Bengali in natural language processing (NLP) research, this study constructs a series of high-quality Bengali benchmark datasets, and provides translation workflows and code repositories to enable reproducible research and advance future Bengali NLP evaluations. The datasets cover categories including common sense, science, mathematics, and multi-domain scenarios, aiming to resolve the shortage of standardized evaluation datasets in Bengali NLP research and facilitate the development and evaluation of Bengali NLP models.
提供机构:
斯坦福大学
创建时间:
2025-07-31
搜集汇总
数据集介绍

构建方式
Bengali LLM benchmark datasets的构建始于对现有英语NLP基准数据集的系统翻译。研究团队首先筛选了8个涵盖常识推理、科学、数学及多领域任务的代表性数据集,包括OpenbookQA、ARC和GSM8K等。采用GPT-4o-mini作为核心翻译模型,通过精心设计的提示模板控制翻译质量,要求保留原始语义和JSON数据结构。翻译过程采用多线程并行处理,并针对重复翻译、JSON解码错误等挑战实施了温度参数调整、正则表达式清洗等后处理措施,最终形成经过人工盲审验证的高质量孟加拉语数据集。
特点
该数据集作为首个系统性孟加拉语LLM评估基准,具有显著的稀缺性与创新性。其核心特点体现在语言维度上完整覆盖了孟加拉语的复杂形态特征,包括独特的元音附标文字系统和多字符合写字问题;任务维度上囊括了从常识推理到数学解题的多样化评估场景。数据统计显示孟加拉语文本平均token数较英语高出37%,且存在显著的token化效率差异,这为研究语言特性对模型性能的影响提供了天然实验场。数据集还保留了完整的英语原版数据,支持跨语言对比研究。
使用方法
使用该数据集时建议采用多维度评估框架:通过准确率(Accuracy)衡量基础任务表现,利用响应错误率(RER)分析输出格式一致性,结合LLM-Judge系统评估语义保真度。研究显示DeepSeek等架构在跨语言评估中表现稳健,而较小规模的Mistral模型存在明显语言差距。特别注意孟加拉语输入会触发显著更高的token计数(平均每词2-7个token),建议在评估时同步监控ATPW(每词平均token数)等效率指标,这些参数与模型表现存在显著相关性。数据集支持端到端评估流程,包括零样本推理和指令微调等典型应用场景。
背景与挑战
背景概述
Bengali LLM benchmark datasets是由Shimanto Bhowmik、Md Sazzad Islam、Tawsif Tashwar Dipto、Sheryl Hsu和Tahsin Reasat等研究人员于2025年创建的,旨在解决孟加拉语在自然语言处理(NLP)研究中的代表性不足问题。孟加拉语作为一种拥有超过2.3亿使用者的语言,其独特的语言结构和计算资源限制使其在NLP领域面临诸多挑战。该数据集通过系统性地翻译和评估现有的英语基准数据集,为孟加拉语NLP研究提供了标准化的评估工具,填补了该领域的研究空白。该数据集的创建不仅推动了孟加拉语NLP的发展,还为其他低资源语言的类似研究提供了参考。
当前挑战
Bengali LLM benchmark datasets在构建过程中面临多重挑战。首先,孟加拉语的语言复杂性,包括其丰富的形态学和复杂的书写系统,使得传统的子词标记化方法(如Byte Pair Encoding或WordPiece)在有效分割文本时表现不佳,导致标记碎片化或不一致。其次,缺乏大规模、高质量的孟加拉语文本语料库限制了模型的预训练和微调效果。例如,现有的Sangraha语料库中孟加拉语的标记数量仅为300亿,远低于英语的2万亿标记。此外,数据集的翻译过程也面临机器翻译误差和文化不匹配的问题,需要大量的人工验证和修正。这些挑战不仅影响了数据集的构建质量,也对后续模型的性能评估提出了更高的要求。
常用场景
经典使用场景
Bengali LLM benchmark datasets 主要用于评估大型语言模型(LLMs)在孟加拉语(Bengali)这一低资源语言上的多语言能力。通过将英语基准数据集翻译为孟加拉语,研究者能够系统地测试不同模型在语言理解、生成和推理任务中的表现。这一数据集特别适用于研究多语言模型的跨语言泛化能力,尤其是在处理复杂语言结构和稀缺数据资源时的表现。
衍生相关工作
该数据集衍生了多项经典工作,例如 BanglaBERT 和 BanglaGPT 等专用孟加拉语模型的性能评测。同时,其分词分析方法启发了对多语言模型资源分配的研究,如 DeepSeek 系列模型在跨语言稳定性上的改进。相关成果还推动了类似低资源语言(如波斯语、土耳其语)的基准数据集建设,形成了一套可复用的多语言评估方法论。
数据集最近研究
最新研究方向
近年来,Bengali LLM benchmark datasets的研究聚焦于提升低资源语言模型的多语言能力评估。随着大语言模型(LLMs)在英语等高资源语言中的成熟应用,Bengali作为拥有2.3亿使用者的语言,其复杂的形态结构和稀缺的高质量数据集成为研究重点。最新研究通过系统化翻译英语基准数据集(如OpenBookQA、GSM8K)构建了首个标准化Bengali评估体系,并发现模型性能与分词效率呈显著负相关——过度分词会导致准确率下降,而紧凑的分词策略能提升表现。DeepSeek等架构展现出跨语言稳定性,而较小模型(如Mistral)则存在显著语言差距。该方向正推动针对形态丰富语言的定制化分词算法和高质量原生数据集构建,以解决当前机器翻译引入的语义失真问题。
相关研究论文
- 1Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成



