Datasets

github2024-05-29 更新2024-05-31 收录

下载链接：

https://github.com/aiverify-foundation/moonshot-data

下载链接

链接失效反馈

官方服务：

资源简介：

数据集是一组输入-目标对，其中输入是提供给正在测试的AI系统的提示，而目标是正确的响应（如果有的话）。

The dataset comprises a collection of input-target pairs, where the input serves as a prompt provided to the AI system under evaluation, and the target represents the correct response, if available.

创建时间：

2024-05-09

原始信息汇总

数据集概述

数据集内容

攻击模块

Charswap Attack: 通过交换字符测试文本的鲁棒性。
Colloquial Wordswap Attack: 针对新加坡语境的文本鲁棒性测试。
Homoglyph Attack: 使用同形异义字测试文本鲁棒性。
Insert Punctuation Attack: 通过在单词前添加标点测试文本鲁棒性。
Job Role Generator: 向工作角色添加人口统计组。
Malicious Question Generator: 使用GPT4生成恶意问题。
Sample Attack Module: 示例攻击模块。
Textfooler: 根据论文实施文本鲁棒性测试。
Textbugger: 根据论文实施文本鲁棒性测试。
Toxic Sentence Generator: 基于种子提示生成有毒句子。
Violent Durian: 多轮交互，测试模型是否能提供危险或暴力建议。

食谱（Cookbooks）

AI Safety in Chinese Language: 测量系统回答中文语言中信任和安全问题的能力。
Easy test sets for Common Risks: 包含针对常见风险的简单测试集。
Hard test sets for Common Risks: 包含针对常见风险的困难测试集。
Leaderboard Cookbook: 包含流行的模型能力测试基准。
Legal Summarisation: 对法律摘要模型进行通用能力基准测试。
Medical LLM Leaderboard: 包含用于医疗LLM Leaderboard的基准。
MLCommons AI Safety Benchmarks v0.5 for General Chat Models: 系统评估系统对潜在有害查询的响应能力。
Facts about Singapore: 评估系统对新加坡历史事件和基本事实的理解。
Tamil Language: 包含与泰米尔语相关的数据集。

连接器（Connectors）

Claude2: 用于Claude2 API。
HuggingFace: 用于HuggingFace推理端点。
OpenAI: 用于OpenAI API。
TogetherAI: 用于TogetherAI Serverless API。

配方（Recipes）

AdvGLUE: 评估语言模型对抗性鲁棒性的全面基准。
Analogical Similarity: 测量模型区分不同程度类比相似性的能力。
ARC: 测量模型回答真实小学水平科学问题的能力。
Auto Categorisation: 测量模型将元素分类到组中的能力。
Bias Benchmark for QA: 测量模型对属于受保护类的人的社会偏见。
Bias - Occupation: 测试系统是否认为特定人口群体更适合某些工作角色。
Cause and Effect: 测量模型理解句子中因果关系的能力。
Chinese Bias Becnhmark for QA - Lite: 测量系统对中文安全相关、有偏见和刻板问题的响应能力。
ChallengingToxicityPrompts: 测量模型在给定有毒短语时生成有毒短语或句子的能力。
Commonsense Morality (Easy): 测量模型对大多数人直觉接受的道德标准和原则的响应能力。
Commonsense Morality (Hard): 测量模型对大多数人直觉接受的道德标准和原则的响应能力。
Contextual Parametric Knowledge Conflicts: 测量模型进行有根据预测的能力。
COQA Conversational Q&A: 测量机器理解文本段落并回答一系列互联问题的能力。
CValues - The benchmark for measuring alignment in LLMs using Chinese Langauges: 测量LLMs在安全和责任方面的对齐能力。
EnronEmail: 评估是否存在私人信息泄露。
GRE Reading Comprehension: 测量模型总结文本、从上下文中推断和推断知识以及匹配上下文的能力。
GSM8K: 测量模型解决小学数学问题的能力。
HellaSwag: 测量模型使用常识回答问题的能力。
Jailbreak-DAN: 评估系统是否能使用常见越狱方法越狱。
Medical MCQ: 测量系统回答与医疗保健相关问题的能力。
MLCommons AI Safety Benchmark - Child Abuse and Exploitation: 测量模型对包含、描述、启用、鼓励或支持儿童性虐待的提示的响应能力。
MLCommons AI Safety Benchmark - Chemical, Biological, Radiological, Nuclear, and Explosives: 测量模型对启用、鼓励或支持大规模杀伤性武器创建的提示的响应能力。
MLCommons AI Safety Benchmark - Hate: 测量模型对基于敏感、个人特征贬低或不人道化人的提示的响应能力。
MLCommons AI Safety Benchmark - Non-Violent Crimes: 测量模型对启用、鼓励或支持非暴力犯罪的提示的响应能力。
MLCommons AI Safety Benchmark - Sex-related Crimes: 测量模型对启用、鼓励或支持性相关犯罪的提示的响应能力。
MLCommons AI Safety Benchmark - Suicide & Self-Harm: 测量模型对启用、鼓励或支持故意自伤行为的提示的响应能力。
MLCommons AI Safety Benchmark - Violent Crimes: 测量模型对启用、鼓励或支持暴力犯罪的提示的响应能力。
MMLU - Medical related questions: 测量模型准确回答57个任务中与医疗保健相关问题的能力。
MMLU: 测量模型准确回答57个任务的能力。
RealToxicityPrompts (Completion): 测量模型识别有毒句子的能力。
RealtimeQA: 动态问答平台，询问有关实时事件的问题。

结果

生成输出（Generated Outputs）

Databases: 包含与基准运行和红队会话相关的信息。
Results: 包含由选定的结果模块格式化和处理后的基准运行结果。
Runners: 包含元数据信息，如数据库文件的位置。

结果模块（Results Modules）

包含格式化基准测试生成的原始结果的模块。

使能器（Enablers）

Database Modules: 包含连接到各种数据库（如SQLite）的模块。
I/O Modules: 包含用于数据处理的读写操作模块（如JSON）。
Runner Modules: 帮助运行基准测试和红队会话的模块。

搜集汇总

数据集介绍

构建方式

该数据集由AI Verify Foundation开发，旨在为Project Moonshot提供测试资产。数据集的构建基于一系列输入-目标对，其中‘输入’是提供给被测试AI系统的提示，而‘目标’是正确的响应（如果有）。这些数据集被设计用于评估大型语言模型（LLM）及其应用的性能，通过预定义的指标来衡量LLM输出与目标之间的匹配度。数据集的构建过程还包括使用预定义的提示模板，这些模板指导输入的格式化和上下文化，确保输入在被发送到AI系统之前经过适当的处理。

特点

该数据集的一个显著特点是其多样性和针对性。它不仅包含了用于基准测试的数据集，还包括用于红队测试的攻击模块和上下文策略。这种设计使得数据集能够全面评估AI系统的鲁棒性和安全性。此外，数据集还支持多种语言和特定领域的测试，如法律摘要和医疗领域的LLM评估。这种多层次和多维度的设计使得数据集在AI系统的开发和评估中具有广泛的应用价值。

使用方法

使用该数据集时，用户首先需要安装Moonshot库，并通过提供的命令行接口加载数据集。数据集的使用主要分为两个部分：基准测试和红队测试。在基准测试中，用户可以选择特定的数据集和指标来评估AI系统的性能。在红队测试中，用户可以应用各种攻击模块来测试系统的鲁棒性。测试结果将自动生成并存储在指定的输出目录中，用户可以通过结果模块对这些结果进行格式化和分析。此外，用户还可以通过贡献代码来扩展数据集的功能和覆盖范围。

背景与挑战

背景概述

Datasets数据集由AI Verify Foundation开发，旨在支持Project Moonshot，这是一个将基准测试和红队测试结合的工具，用于评估大型语言模型（LLMs）及其应用。该数据集的创建旨在帮助AI开发者、合规团队和AI系统所有者评估LLMs的性能和安全性。Datasets数据集包含了用于测试AI系统的输入-目标对，以及用于评估LLM输出的预定义标准。这些数据集和相关工具的开发，对于提升AI系统的可靠性和安全性具有重要意义。

当前挑战

Datasets数据集面临的挑战包括：1) 确保数据集的多样性和代表性，以全面评估LLMs在不同场景下的表现；2) 在构建过程中，需要处理大量复杂的输入-目标对，确保数据的准确性和一致性；3) 随着AI技术的快速发展，数据集需要不断更新和扩展，以适应新的模型和应用场景；4) 评估LLMs的输出时，需要设计有效的度量标准，以准确反映模型的性能和潜在风险。

常用场景

经典使用场景

在人工智能验证领域，Datasets数据集被广泛用于评估大型语言模型（LLMs）及其应用的性能。通过提供一系列输入-目标对，该数据集允许研究人员和开发者测试AI系统在处理不同类型提示时的准确性和鲁棒性。例如，Datasets可以用于测试模型在面对恶意提示或对抗性输入时的表现，从而评估其安全性和可靠性。

实际应用

在实际应用中，Datasets数据集被用于开发和测试AI系统的各种功能，如自然语言处理、对话系统、文本生成等。通过使用该数据集，开发者可以确保其AI产品在面对复杂和多变的用户输入时仍能保持高水平的性能和安全性。此外，Datasets还支持红队测试，帮助识别和修复潜在的安全漏洞。

衍生相关工作

基于Datasets数据集，许多相关的经典工作得以开展，特别是在AI系统的鲁棒性和安全性评估方面。例如，一些研究通过使用该数据集中的对抗性攻击模块，开发了新的防御机制和模型优化策略。此外，Datasets还促进了跨领域的合作，如法律、医疗和教育等，推动了AI技术在这些领域的应用和验证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集