Bengali LLM benchmark datasets

Name: Bengali LLM benchmark datasets
Creator: 斯坦福大学
Published: 2025-07-31 13:16:43
License: 暂无描述

arXiv2025-07-31 更新2025-08-07 收录

下载链接：

https://huggingface.co/collections/bengaliAI/bengali-llm-benchmark-datasets-683bd5999bb4c70bc9e83310

下载链接

链接失效反馈

官方服务：

资源简介：

本研究针对孟加拉语在自然语言处理研究中的代表性不足问题，构建了一系列高质量的孟加拉语基准数据集，并提供了翻译流程和代码库，以促进可重复研究和未来孟加拉语NLP评估的进展。数据集涵盖了常识、科学、数学和多领域等类别，旨在解决孟加拉语NLP研究中缺乏标准化评估数据集的问题，并促进孟加拉语NLP模型的开发和评估。

提供机构：

斯坦福大学

创建时间：

2025-07-31

搜集汇总

数据集介绍

构建方式

Bengali LLM benchmark datasets的构建始于对现有英语NLP基准数据集的系统翻译。研究团队首先筛选了8个涵盖常识推理、科学、数学及多领域任务的代表性数据集，包括OpenbookQA、ARC和GSM8K等。采用GPT-4o-mini作为核心翻译模型，通过精心设计的提示模板控制翻译质量，要求保留原始语义和JSON数据结构。翻译过程采用多线程并行处理，并针对重复翻译、JSON解码错误等挑战实施了温度参数调整、正则表达式清洗等后处理措施，最终形成经过人工盲审验证的高质量孟加拉语数据集。

特点

该数据集作为首个系统性孟加拉语LLM评估基准，具有显著的稀缺性与创新性。其核心特点体现在语言维度上完整覆盖了孟加拉语的复杂形态特征，包括独特的元音附标文字系统和多字符合写字问题；任务维度上囊括了从常识推理到数学解题的多样化评估场景。数据统计显示孟加拉语文本平均token数较英语高出37%，且存在显著的token化效率差异，这为研究语言特性对模型性能的影响提供了天然实验场。数据集还保留了完整的英语原版数据，支持跨语言对比研究。

使用方法

使用该数据集时建议采用多维度评估框架：通过准确率（Accuracy）衡量基础任务表现，利用响应错误率（RER）分析输出格式一致性，结合LLM-Judge系统评估语义保真度。研究显示DeepSeek等架构在跨语言评估中表现稳健，而较小规模的Mistral模型存在明显语言差距。特别注意孟加拉语输入会触发显著更高的token计数（平均每词2-7个token），建议在评估时同步监控ATPW（每词平均token数）等效率指标，这些参数与模型表现存在显著相关性。数据集支持端到端评估流程，包括零样本推理和指令微调等典型应用场景。

背景与挑战

背景概述

Bengali LLM benchmark datasets是由Shimanto Bhowmik、Md Sazzad Islam、Tawsif Tashwar Dipto、Sheryl Hsu和Tahsin Reasat等研究人员于2025年创建的，旨在解决孟加拉语在自然语言处理（NLP）研究中的代表性不足问题。孟加拉语作为一种拥有超过2.3亿使用者的语言，其独特的语言结构和计算资源限制使其在NLP领域面临诸多挑战。该数据集通过系统性地翻译和评估现有的英语基准数据集，为孟加拉语NLP研究提供了标准化的评估工具，填补了该领域的研究空白。该数据集的创建不仅推动了孟加拉语NLP的发展，还为其他低资源语言的类似研究提供了参考。

当前挑战

Bengali LLM benchmark datasets在构建过程中面临多重挑战。首先，孟加拉语的语言复杂性，包括其丰富的形态学和复杂的书写系统，使得传统的子词标记化方法（如Byte Pair Encoding或WordPiece）在有效分割文本时表现不佳，导致标记碎片化或不一致。其次，缺乏大规模、高质量的孟加拉语文本语料库限制了模型的预训练和微调效果。例如，现有的Sangraha语料库中孟加拉语的标记数量仅为300亿，远低于英语的2万亿标记。此外，数据集的翻译过程也面临机器翻译误差和文化不匹配的问题，需要大量的人工验证和修正。这些挑战不仅影响了数据集的构建质量，也对后续模型的性能评估提出了更高的要求。

常用场景

经典使用场景

Bengali LLM benchmark datasets 主要用于评估大型语言模型（LLMs）在孟加拉语（Bengali）这一低资源语言上的多语言能力。通过将英语基准数据集翻译为孟加拉语，研究者能够系统地测试不同模型在语言理解、生成和推理任务中的表现。这一数据集特别适用于研究多语言模型的跨语言泛化能力，尤其是在处理复杂语言结构和稀缺数据资源时的表现。

衍生相关工作

该数据集衍生了多项经典工作，例如 BanglaBERT 和 BanglaGPT 等专用孟加拉语模型的性能评测。同时，其分词分析方法启发了对多语言模型资源分配的研究，如 DeepSeek 系列模型在跨语言稳定性上的改进。相关成果还推动了类似低资源语言（如波斯语、土耳其语）的基准数据集建设，形成了一套可复用的多语言评估方法论。

数据集最近研究