TituLLMs
收藏arXiv2025-02-17 更新2025-02-27 收录
下载链接:
https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a
下载链接
链接失效反馈官方服务:
资源简介:
TituLLMs是一个由Hishab Singapore Pte. Ltd等机构创建的孟加拉语数据集,包含大约37亿个tokens,数据来源于网页文档、书籍和合成的文本。该数据集旨在用于预训练语言模型,并针对世界知识和常识推理等任务进行了 benchmarking。
TituLLMs is a Bengali dataset developed by institutions including Hishab Singapore Pte. Ltd. It comprises approximately 3.7 billion tokens, with data sourced from web documents, books, and synthetic text. This dataset is designed for pre-training language models, and has been benchmarked on tasks including world knowledge and commonsense reasoning.
提供机构:
Hishab Singapore Pte. Ltd, Singapore; University of Central Florida, USA; Qatar Computing Research Institute, Qatar
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
TituLLMs数据集的构建方法主要涉及从多样化的来源收集大规模的预训练数据,包括网页文档、书籍以及合成的文本。为了适应孟加拉语的语言和文化特点,研究者扩展了Llama-3.2分词器,这不仅加快了训练和推理速度,还提高了模型的性能。此外,由于缺乏专门的基准数据集来评估孟加拉语大型语言模型(LLM),研究者开发了五个基准数据集,涵盖了世界知识和常识推理等领域,总数据集大小为132k条目。
特点
TituLLMs数据集的特点在于其模型的多样性和广泛的基准数据集。数据集包含了两种不同参数大小的模型:1b和3b。基准数据集的设计旨在评估LLM在常识推理和世界知识方面的能力,这对于低资源语言的LLM来说是至关重要的。此外,TituLLMs模型在推理任务中表现出色,即使训练数据量较小,也证明了其有效性和效率。
使用方法
TituLLMs数据集的使用方法包括直接用于自然语言处理(NLP)任务,如文本生成、问答和多轮对话等。研究者们还鼓励将TituLLMs模型与基准数据集一起使用,以评估模型在不同任务上的性能。此外,研究者们还提供了完整的预训练数据收集方法,包括数据来源、合成数据生成方法等,以便其他研究者可以重现他们的工作并进一步研究。
背景与挑战
背景概述
TituLLMs数据集背景概述:TituLLMs是首批大规模预训练的孟加拉语语言模型,拥有1b和3b参数规模。由于训练和推理过程中的计算限制,我们专注于较小的模型。为了训练TituLLMs,我们收集了一个大约∼37亿个token的预训练数据集。我们扩展了Llama-3.2分词器,以融入语言和文化特定的知识,这也有助于加快训练和推理。对于孟加拉语LLMs的基准测试数据集缺乏。为了解决这个问题,我们开发了五个基准测试数据集。我们使用这些数据集对TituLLMs和其他LLMs进行了基准测试,并证明了TituLLMs优于其初始多语言版本。然而,这并非总是如此,突显了语言适应的复杂性。我们的工作为将现有的多语言开放模型适应到其他低资源语言奠定了基础。为了促进更广泛的采用和进一步的研究,我们已经公开发布了TituLLMs模型和基准测试数据集。
当前挑战
TituLLMs数据集当前挑战:1) 缺乏基准测试数据集:由于孟加拉语等低资源语言缺乏基准测试数据集,因此评估和比较LLMs的能力成为一大挑战。2) 数据收集的挑战:孟加拉语等低资源语言的数字内容相对较少,因此收集高质量、多样化的训练数据集是一个挑战。3) 语言适应的复杂性:将现有的多语言LLMs适应到低资源语言时,可能会遇到语言和文化差异带来的复杂性,这需要特定的技术和方法。4) 长文本处理能力:TituLLMs在处理长文本方面的性能还有待提高,这需要进一步的研究和改进。5) 教程微调数据的缺乏:由于孟加拉语缺乏教程微调数据,因此TituLLMs在特定任务和领域适应方面的性能还有待提高。
常用场景
经典使用场景
TituLLMs数据集主要被用于训练和评估针对孟加拉语的大型语言模型(LLMs)。该数据集包含了大约370亿个孟加拉语词汇的预训练数据集,可用于训练1b和3b参数大小的模型。由于计算限制,我们专注于较小的模型。为了训练TituLLMs,我们收集了一个大约370亿个标记的预训练数据集。我们扩展了Llama-3.2分词器,以包含语言和文化特定的知识,这也有助于更快地训练和推理。由于缺乏用于基准测试LLMs的孟加拉语基准测试数据集,我们开发了五个基准测试数据集。我们对包括TituLLMs在内的各种LLMs进行了基准测试,并表明TituLLMs优于其初始多语言版本。然而,这并非总是如此,这突出了语言适应的复杂性。我们的工作为将现有的多语言开放模型适应到其他低资源语言奠定了基础。为了促进更广泛的采用和进一步的研究,我们公开发布了TituLLMs模型和基准测试数据集。
解决学术问题
TituLLMs数据集解决了在孟加拉语等低资源语言中缺乏LLMs基准测试数据集的问题。通过开发五个基准测试数据集,该数据集为评估LLMs在孟加拉语世界知识、常识推理和阅读理解方面的能力提供了工具。此外,TituLLMs数据集还展示了如何通过扩展分词器和进行持续预训练来将现有的多语言开放模型适应到新的语言,为低资源语言的语言模型研究提供了重要的参考。
衍生相关工作
TituLLMs数据集的发布促进了相关领域的研究。例如,基于TituLLMs模型的研究可以探索如何进一步提高LLMs在低资源语言中的性能,以及如何利用TituLLMs模型进行跨语言模型迁移。此外,TituLLMs数据集还可以用于开发新的基准测试数据集,以评估LLMs在其他低资源语言中的性能。这些研究将有助于推动LLMs在更多语言中的应用和发展。
以上内容由遇见数据集搜集并总结生成



