five

ParsiNLU, ArmanEmo, ArmanNER, ConjNLI, MATH

收藏
arXiv2024-04-03 更新2024-06-21 收录
下载链接:
https://github.com/Ipouyall/Benchmarking_ChatGPT_for_Persian
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用多个数据集,包括ParsiNLU、ArmanEmo、ArmanNER等,以及自创的数学和逻辑问题数据集,总计超过100万条数据。这些数据集用于评估大型语言模型在波斯语环境下的性能,涉及情感分析、阅读理解、翻译等多种任务。数据集的创建和选择考虑了任务的相关性、难度、多样性和质量,旨在全面评估模型在波斯语环境中的表现,特别是在数学和逻辑推理方面的能力。

This study utilizes multiple datasets, including ParsiNLU, ArmanEmo, ArmanNER, and others, as well as a self-developed dataset of mathematical and logical reasoning problems, totaling over 1 million data samples. These datasets are employed to evaluate the performance of large language models in the Persian language context, covering a range of tasks such as sentiment analysis, reading comprehension, machine translation, and more. The creation and selection of these datasets take into account task relevance, difficulty, diversity, and quality, with the goal of comprehensively assessing the model's performance in the Persian language scenario, particularly its mathematical and logical reasoning capabilities.
提供机构:
特拉华大学
创建时间:
2024-04-03
搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语自然语言处理领域,数据集的构建往往面临资源稀缺的挑战。ParsiNLU、ArmanEmo、ArmanNER、ConjNLI及MATH等数据集的构建体现了多元化的策略。ParsiNLU整合了来自维基百科、社交媒体及自动补全的语料,并辅以人工标注;ArmanEmo与ArmanNER则分别从推特、电商平台及新闻文本中收集数据,并依据心理学理论或实体类别进行精细标注。针对推理任务,研究团队自主创建了基于伊朗小学及入学考试的数学问题数据集,同时将英文ConjNLI与MATH数据集翻译为波斯语,并进行了格式标准化与质量校验,以弥补本土推理数据的不足。
特点
这些数据集共同构成了一个多层次、多任务的波斯语评估基准。ParsiNLU以其广泛的覆盖范围著称,囊括了情感分析、阅读理解、文本蕴含及机器翻译等经典任务;ArmanEmo专注于细粒度情绪分类,涵盖了六种基本情绪;ArmanNER则提供了包括人名、地点、组织在内的实体标注。特别值得注意的是,为评估大语言模型推理能力而构建的数学问题数据集,涵盖了代数、概率、几何等多个领域,且问题设计兼顾了语言复杂性与数学深度,为模型的能力测试提供了严谨的基准。
使用方法
这些数据集主要用于评估大语言模型在波斯语任务上的性能。典型的使用方法包括零样本、少样本及提示工程策略。研究者通过设计结构化的提示模板,将任务描述、标签说明及示例样本整合输入模型,以测试其理解与生成能力。在评估过程中,常对比大语言模型与针对特定任务微调的SOTA模型的表现。此外,为了探究语言对性能的影响,部分研究还会将波斯语测试样本翻译为英语后进行输入测试。数据集的划分通常遵循原始设定的训练、测试集,或在评估时随机抽取子集以确保公平比较。
背景与挑战
背景概述
波斯语作为印欧语系的重要语言,承载着丰富的历史文化底蕴,主要分布于伊朗、阿富汗及塔吉克斯坦等地区。然而,在自然语言处理领域,波斯语长期面临资源匮乏的困境,尤其在大语言模型评估方面缺乏系统性基准。2024年,由不列颠哥伦比亚大学与德黑兰大学联合团队主导的研究,首次针对波斯语构建了综合性评估框架,涵盖ParsiNLU、ArmanEmo、ArmanNER、ConjNLI及MATH等核心数据集。该研究聚焦于GPT系列及开源模型在波斯语场景下的性能验证,通过经典任务、推理任务与知识任务三大维度,系统揭示了多语言大模型在非拉丁字符语言中的适应能力与局限性。这项开创性工作不仅填补了波斯语NLP评估体系的空白,更为低资源语言的大模型研究提供了重要的方法论参照。
当前挑战
该数据集所针对的领域问题在于全面评估大语言模型在波斯语多任务场景下的性能,涉及情感分析、命名实体识别、文本蕴含及数学推理等复杂挑战。构建过程中的核心难点体现在:首先,波斯语独特的文字体系与书写变体导致数据标注需要深厚的语言学专业知识;其次,推理类任务的本土化数据集稀缺,研究团队需自主构建小学数学及入学考试题库,并解决数学表达式LaTeX格式转换等技术瓶颈;再者,跨语言评估中需平衡原文与翻译文本的语义保真度,避免因机器翻译引入的噪声影响模型判断。这些挑战共同凸显了低资源语言在NLP基准建设中的特殊性与复杂性。
常用场景
经典使用场景
在波斯语自然语言处理领域,ParsiNLU、ArmanEmo、ArmanNER、ConjNLI和MATH等数据集构成了评估大型语言模型性能的核心基准。这些数据集广泛应用于情感分析、命名实体识别、文本蕴含和数学推理等经典任务,为研究者提供了系统化的测试平台。通过整合多样化的语言任务,它们能够全面衡量模型在波斯语这一低资源语言中的理解与生成能力,尤其在多语言大模型如GPT系列的评估中展现出关键价值。
解决学术问题
这些数据集有效解决了波斯语自然语言处理中资源匮乏与评估标准缺失的学术难题。通过提供高质量标注数据,它们支持了模型在低资源语言环境下的性能对比研究,揭示了多语言大模型在特定语言任务上的优势与局限。例如,研究显示GPT-4在数学推理任务中表现卓越,而在文化特定领域如波斯文学知识方面则存在不足,这为优化模型的多语言泛化能力提供了实证依据。
衍生相关工作
围绕这些数据集,衍生了一系列经典研究工作,如基于ParsiNLU的微调模型(如mT5和ParsBERT)在特定任务上的性能优化,以及针对GPT系列模型的提示工程策略探索。相关研究还扩展至多语言评估框架的构建,例如通过翻译增强方法提升模型在波斯语任务中的表现,这些工作共同推动了低资源语言处理技术的进步与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作