BATIK
收藏github2024-09-09 更新2024-09-23 收录
下载链接:
https://github.com/ansari-project/datasets
下载链接
链接失效反馈官方服务:
资源简介:
BATIK(Broad Automated Test of Islamic Knowledge)是一个包含100个问题和答案的集合。这些问题是从人们向Ansari提出的前2500个问题中提取的事实性问题。它是一个多选题测验,每个问题有2到5个选项。该测试是多语言的,提供英语、阿拉伯语和土耳其语版本。还有一个用于评估不同大型语言模型结果的笔记本(score-batik.ipynb),并打印每个模型所犯的错误。
BATIK (Broad Automated Test of Islamic Knowledge) is a curated dataset containing 100 questions and their corresponding answers. All questions are factual items extracted from the first 2500 questions submitted to Ansari by the public. It is a multiple-choice quiz, with each question providing 2 to 5 response options. This test is multilingual, with versions available in English, Arabic, and Turkish. Additionally, a Jupyter notebook (score-batik.ipynb) is provided to evaluate the outputs of different large language models (LLMs), which prints the errors made by each evaluated model.
创建时间:
2024-09-04
原始信息汇总
datasets
数据集概述
该仓库包含用于评估、训练和研究AI与伊斯兰教的数据集。目前包含以下数据集:
BATIK
- 描述: BATIK(Broad Automated Test of Islamic Knowledge)是一个包含100个问题和答案的数据集。这些问题是从人们向Ansari提出的前2500个问题中提取的,属于事实性问题。每个问题有2到5个选项,是一个多选题形式的测试。
- 语言: 该测试是多语言的,提供英语、阿拉伯语和土耳其语版本。
- 评估工具: 提供了一个名为
score-batik.ipynb的笔记本,用于评估不同大型语言模型(LLMs)的结果,并打印每个模型所犯的错误。 - 简化版本: 提供了一个简化版本,移除了《古兰经》搜索相关的问题,可在这里尝试。
结果
- 语言影响: 语言对准确性没有显著影响。在gpt-4o和gpt-4o-mini上,英语、阿拉伯语和土耳其语的结果几乎相同。
- 模型对比: 使用Ansari或OpenAI的gpt-4o在事实性问题上的准确性没有显著差异。
- 模型准确性:
- OpenAI的gpt-4o准确率为99%或100%(存在一定的不确定性)。
- OpenAI的gpt-4o-mini准确率为89%或90%(存在一定的不确定性)。
- 人类完成简化测试的平均准确率为81%(样本量为5)。
特别感谢
- 感谢Ashraf Haress将问题翻译成阿拉伯语和土耳其语。
搜集汇总
数据集介绍

构建方式
BATIK数据集的构建基于Ansari平台上的前2500个问题,从中精选出100个事实性问题,形成一个多选题形式的测试集。每个问题包含2至5个选项,旨在评估AI在伊斯兰知识领域的性能。该数据集特别设计为多语言版本,涵盖英语、阿拉伯语和土耳其语,以确保跨语言的一致性和广泛适用性。此外,数据集还包括一个用于评估不同大型语言模型(LLMs)性能的Jupyter笔记本(score-batik.ipynb),该笔记本不仅输出各模型的错误,还提供了详细的性能分析。
特点
BATIK数据集的主要特点在于其多语言支持和事实性问题的精选。通过提供英语、阿拉伯语和土耳其语版本,该数据集能够有效评估模型在不同语言环境下的表现。此外,数据集的多选题形式确保了问题的明确性和答案的唯一性,从而提高了测试的准确性和可靠性。数据集还包含一个专门的评估工具,便于研究人员和开发者快速评估和比较不同模型的性能。
使用方法
使用BATIK数据集时,用户可以通过提供的Jupyter笔记本(score-batik.ipynb)直接加载和评估不同的大型语言模型。该笔记本支持多语言版本的测试,用户可以选择英语、阿拉伯语或土耳其语进行评估。评估结果包括各模型的准确率、错误类型及详细分析,有助于用户深入理解模型的性能特点。此外,数据集还提供了一个简化版的人类测试题,方便用户进行自我测试和对比分析。
背景与挑战
背景概述
BATIK(Broad Automated Test of Islamic Knowledge)数据集由一组100个问题和答案组成,旨在评估、训练和研究人工智能与伊斯兰知识领域。该数据集的问题源自Ansari回答的前2500个问题,采用多选题形式,每个问题提供2至5个选项。BATIK数据集支持多语言测试,包括英语、阿拉伯语和土耳其语,并提供了一个用于评估不同大型语言模型(LLMs)表现的笔记本(score-batik.ipynb)。该数据集的创建旨在通过多语言和多模型的评估,推动人工智能在伊斯兰知识领域的应用和发展。
当前挑战
BATIK数据集在构建和应用过程中面临多项挑战。首先,多语言支持要求高精度的翻译和本地化,以确保不同语言版本的问题和答案保持一致性和准确性。其次,数据集的评估需要处理不同大型语言模型(如gpt-4o和gpt-4o-mini)的非确定性答案,这增加了评估的复杂性。此外,数据集的简化版本用于人类测试时,需移除对人类难以回答的古兰经搜索问题,这要求在数据集设计时进行精细的筛选和调整。最后,数据集的样本量较小,特别是在人类测试部分,这可能影响结果的普遍性和可靠性。
常用场景
经典使用场景
BATIK数据集的经典使用场景主要集中在人工智能和伊斯兰知识评估领域。该数据集包含100个多选题,涵盖了从伊斯兰教义中提取的实际问题,适用于训练和评估语言模型在处理宗教知识方面的能力。通过提供英语、阿拉伯语和土耳其语的多语言版本,BATIK不仅测试了模型的语言理解能力,还评估了其在跨文化背景下的知识应用能力。
衍生相关工作
BATIK数据集的发布和应用催生了一系列相关研究和工作。例如,研究人员利用BATIK数据集开发了多语言智能问答系统,这些系统不仅在学术界引起了广泛关注,还在实际应用中得到了验证。此外,BATIK还激发了对跨文化智能系统设计的研究,推动了人工智能在处理复杂文化背景知识方面的技术进步。这些衍生工作不仅提升了人工智能的应用范围,也加深了人们对跨文化智能系统的理解和应用。
数据集最近研究
最新研究方向
在人工智能与伊斯兰研究的交叉领域,BATIK数据集的最新研究方向主要集中在多语言模型的性能评估与优化上。该数据集不仅涵盖了英语、阿拉伯语和土耳其语三种语言,还通过对比不同语言模型(如OpenAI的gpt-4o和gpt-4o-mini)的准确性,揭示了语言对模型性能的影响微乎其微。此外,研究还关注了模型在引用准确性和非确定性答案方面的表现,进一步推动了多语言环境下AI模型的精细化调整和应用。
以上内容由遇见数据集搜集并总结生成



