BATIK

github2024-09-09 更新2024-09-23 收录

下载链接：

https://github.com/ansari-project/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

BATIK（Broad Automated Test of Islamic Knowledge）是一个包含100个问题和答案的集合。这些问题是从人们向Ansari提出的前2500个问题中提取的事实性问题。它是一个多选题测验，每个问题有2到5个选项。该测试是多语言的，提供英语、阿拉伯语和土耳其语版本。还有一个用于评估不同大型语言模型结果的笔记本（score-batik.ipynb），并打印每个模型所犯的错误。

BATIK (Broad Automated Test of Islamic Knowledge) is a curated dataset containing 100 questions and their corresponding answers. All questions are factual items extracted from the first 2500 questions submitted to Ansari by the public. It is a multiple-choice quiz, with each question providing 2 to 5 response options. This test is multilingual, with versions available in English, Arabic, and Turkish. Additionally, a Jupyter notebook (score-batik.ipynb) is provided to evaluate the outputs of different large language models (LLMs), which prints the errors made by each evaluated model.

创建时间：

2024-09-04

原始信息汇总

datasets

数据集概述

该仓库包含用于评估、训练和研究AI与伊斯兰教的数据集。目前包含以下数据集：

BATIK

描述: BATIK（Broad Automated Test of Islamic Knowledge）是一个包含100个问题和答案的数据集。这些问题是从人们向Ansari提出的前2500个问题中提取的，属于事实性问题。每个问题有2到5个选项，是一个多选题形式的测试。
语言: 该测试是多语言的，提供英语、阿拉伯语和土耳其语版本。
评估工具: 提供了一个名为score-batik.ipynb的笔记本，用于评估不同大型语言模型（LLMs）的结果，并打印每个模型所犯的错误。
简化版本: 提供了一个简化版本，移除了《古兰经》搜索相关的问题，可在这里尝试。

结果

语言影响: 语言对准确性没有显著影响。在gpt-4o和gpt-4o-mini上，英语、阿拉伯语和土耳其语的结果几乎相同。
模型对比: 使用Ansari或OpenAI的gpt-4o在事实性问题上的准确性没有显著差异。
模型准确性:
- OpenAI的gpt-4o准确率为99%或100%（存在一定的不确定性）。
- OpenAI的gpt-4o-mini准确率为89%或90%（存在一定的不确定性）。
- 人类完成简化测试的平均准确率为81%（样本量为5）。

特别感谢

感谢Ashraf Haress将问题翻译成阿拉伯语和土耳其语。

搜集汇总

数据集介绍

构建方式

BATIK数据集的构建基于Ansari平台上的前2500个问题，从中精选出100个事实性问题，形成一个多选题形式的测试集。每个问题包含2至5个选项，旨在评估AI在伊斯兰知识领域的性能。该数据集特别设计为多语言版本，涵盖英语、阿拉伯语和土耳其语，以确保跨语言的一致性和广泛适用性。此外，数据集还包括一个用于评估不同大型语言模型（LLMs）性能的Jupyter笔记本（score-batik.ipynb），该笔记本不仅输出各模型的错误，还提供了详细的性能分析。

特点

BATIK数据集的主要特点在于其多语言支持和事实性问题的精选。通过提供英语、阿拉伯语和土耳其语版本，该数据集能够有效评估模型在不同语言环境下的表现。此外，数据集的多选题形式确保了问题的明确性和答案的唯一性，从而提高了测试的准确性和可靠性。数据集还包含一个专门的评估工具，便于研究人员和开发者快速评估和比较不同模型的性能。

使用方法

使用BATIK数据集时，用户可以通过提供的Jupyter笔记本（score-batik.ipynb）直接加载和评估不同的大型语言模型。该笔记本支持多语言版本的测试，用户可以选择英语、阿拉伯语或土耳其语进行评估。评估结果包括各模型的准确率、错误类型及详细分析，有助于用户深入理解模型的性能特点。此外，数据集还提供了一个简化版的人类测试题，方便用户进行自我测试和对比分析。

背景与挑战

背景概述

BATIK（Broad Automated Test of Islamic Knowledge）数据集由一组100个问题和答案组成，旨在评估、训练和研究人工智能与伊斯兰知识领域。该数据集的问题源自Ansari回答的前2500个问题，采用多选题形式，每个问题提供2至5个选项。BATIK数据集支持多语言测试，包括英语、阿拉伯语和土耳其语，并提供了一个用于评估不同大型语言模型（LLMs）表现的笔记本（score-batik.ipynb）。该数据集的创建旨在通过多语言和多模型的评估，推动人工智能在伊斯兰知识领域的应用和发展。

当前挑战

BATIK数据集在构建和应用过程中面临多项挑战。首先，多语言支持要求高精度的翻译和本地化，以确保不同语言版本的问题和答案保持一致性和准确性。其次，数据集的评估需要处理不同大型语言模型（如gpt-4o和gpt-4o-mini）的非确定性答案，这增加了评估的复杂性。此外，数据集的简化版本用于人类测试时，需移除对人类难以回答的古兰经搜索问题，这要求在数据集设计时进行精细的筛选和调整。最后，数据集的样本量较小，特别是在人类测试部分，这可能影响结果的普遍性和可靠性。

常用场景

经典使用场景

BATIK数据集的经典使用场景主要集中在人工智能和伊斯兰知识评估领域。该数据集包含100个多选题，涵盖了从伊斯兰教义中提取的实际问题，适用于训练和评估语言模型在处理宗教知识方面的能力。通过提供英语、阿拉伯语和土耳其语的多语言版本，BATIK不仅测试了模型的语言理解能力，还评估了其在跨文化背景下的知识应用能力。

衍生相关工作

BATIK数据集的发布和应用催生了一系列相关研究和工作。例如，研究人员利用BATIK数据集开发了多语言智能问答系统，这些系统不仅在学术界引起了广泛关注，还在实际应用中得到了验证。此外，BATIK还激发了对跨文化智能系统设计的研究，推动了人工智能在处理复杂文化背景知识方面的技术进步。这些衍生工作不仅提升了人工智能的应用范围，也加深了人们对跨文化智能系统的理解和应用。

数据集最近研究