mii-llm/pinocchio

Name: mii-llm/pinocchio
Creator: mii-llm
Published: 2024-07-20 14:18:14
License: 暂无描述

Hugging Face2024-07-20 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/mii-llm/pinocchio

下载链接

链接失效反馈

官方服务：

资源简介：

Pinocchio数据集是一个全面的、具有挑战性的自然语言理解（NLU）数据集，旨在严格评估语言模型的能力，特别关注意大利语言、文化和各种专业领域。数据集包含约140,000个问题，涵盖多种模态和约40个学科。数据集的特点包括对意大利语的全面关注、多样化的专业领域、多模态评估和难度分层。数据集由Edoardo Federici策划，采用Apache 2.0许可证。

The Pinocchio dataset is a comprehensive and challenging Natural Language Understanding (NLU) dataset designed specifically for Italian language and culture, containing approximately 140,000 questions across multiple modalities and about 40 disciplines. It particularly focuses on Italian language and culture, filling a crucial gap in NLU evaluation. It includes dedicated splits for law, foreign languages, logic, and STEM, as well as a multimodal split that allows for the assessment of models ability to understand and reason about both text and images. The dataset also provides carefully curated subsets, allowing for nuanced evaluation of model capabilities.

提供机构：

mii-llm

原始信息汇总

Pinocchio 数据集概述

基本信息

语言: 意大利语, 英语
许可证: Apache 2.0
数据集大小: 100K<n<1M
任务类别: 问答
数据集名称: Pinocchio

数据集配置

多模态配置 (multimodal)

特征:
- question: 字符串
- options: 列表，包含 key 和 value，均为字符串
- answer: 字符串
- image: 图像
- macro: 字符串
- category: 字符串
分割:
- generale: 34275 个样本, 673172291.25 字节
下载大小: 590129851 字节
数据集大小: 673172291.25 字节

文本配置 (text)

特征:
- question: 字符串
- options: 列表，包含 key 和 value，均为字符串
- answer: 字符串
- macro: 字符串
- category: 字符串
分割:
- cultura: 10000 个样本, 4058099 字节
- diritto: 10000 个样本, 4552269 字节
- lingua_straniera: 10000 个样本, 1918919 字节
- logica: 10000 个样本, 3466676 字节
- matematica_e_scienze: 10000 个样本, 2632463 字节
- generale: 52574 个样本, 20438794 字节
下载大小: 19120837 字节
数据集大小: 37067220 字节

数据文件路径

多模态配置:
- generale: multimodal/generale-*
文本配置:
- cultura: text/cultura-*
- diritto: text/diritto-*
- lingua_straniera: text/lingua_straniera-*
- logica: text/logica-*
- matematica_e_scienze: text/matematica_e_scienze-*
- generale: text/generale-*

在自然语言理解（NLU）评估领域，多语言与跨文化数据集的稀缺性长期制约着模型泛化能力的验证。Pinocchio数据集基于对大量意大利语真实语料的深度挖掘而构建，其初始语料库源自意大利各类真实考试、专业评估及领域特定挑战中的题目与任务。通过系统性地采集这些反映实际职业与学术场景的问题，研究团队确保了数据集能够精准映射意大利语语境下所需的知识体系与技能要求。在此基础上，数据经过精心筛选与结构化组织，形成了涵盖文本与多模态两种配置的评测资源，其中文本部分细分为多个领域子集，多模态部分则融合了图像与文本信息，从而构建出一个兼具真实性与挑战性的NLU基准。

使用方法

Pinocchio数据集的使用可通过HuggingFace平台便捷加载。用户可根据研究需求选择两种配置：'text'配置提供纯文本的多选题，包含cultura、diritto、lingua_straniera、logica、matematica_e_scienze及generale六个子集，每个子集包含10,000至52,574道题目不等；'multimodal'配置则包含约34,275个同时涉及文本与图像的题目。每个样本均包含问题（question）、选项（options，以键值对形式存储）、答案（answer）以及领域分类标签（macro与category）。研究者可直接利用这些结构化数据对语言模型或多模态模型进行评测，尤其适合评估模型在意大利语环境下的自然语言理解与推理能力。

背景与挑战

背景概述

在自然语言理解（NLU）领域，大多数评测数据集以英语为中心，导致对其他语言尤其是意大利语的模型能力评估存在显著空白。为填补这一缺口，Edoardo Federici于2024年7月发布了Pinocchio数据集，这是一个专门针对意大利语言、文化及多专业领域设计的大规模评测资源。该数据集由约14万道题目构成，覆盖法律、外语、逻辑、数学与科学等约40个学科，并包含多模态子集，旨在全面衡量语言模型在意大利语境下的理解与推理能力。Pinocchio的出现为多语言NLU研究提供了稀缺的意大利语基准，推动了跨语言模型评测的多样化发展。

当前挑战

Pinocchio数据集面临多重挑战。首先，在领域问题上，它致力于解决意大利语NLU评测资源匮乏的困境，但文化特异性使得模型需同时应对语言理解与本土知识推理的双重考验，对跨语言迁移能力提出严苛要求。其次，在构建过程中，数据源自现实考试与专业评估，如何确保题目覆盖各学科深度与广度、避免文化偏见，是设计上的核心难点。此外，多模态子集需平衡文本与图像的复杂度与多样性，而大规模人工标注与质量审核也增加了资源消耗。这些挑战共同构成了Pinocchio在提升评测严谨性与实用性上的关键障碍。

常用场景

经典使用场景

Pinocchio数据集最经典的使用场景在于对自然语言理解模型的全面评估，尤其聚焦于意大利语及其文化背景下的多领域知识推理。该数据集包含约14万道选择题，涵盖法律、逻辑、数学、外语及多模态任务等近40个学科，为研究者提供了一个兼具广度与深度的评测平台。其独特的难度分层设计，使得模型在通用知识、专业领域与跨模态理解上的表现皆可被精细度量，从而成为检验语言模型在非英语环境下鲁棒性与泛化能力的重要基准。

解决学术问题

该数据集有效填补了意大利语自然语言理解评测资源的空白，解决了现有数据集过度依赖英语、忽视语言文化特异性导致的评估偏差问题。通过设置文化、法律、逻辑等专业化子集，Pinocchio使学术界能够深入探究模型在特定领域知识、跨学科推理及文化常识上的真实能力。其多模态配置进一步支持了图文联合理解的研究，为视觉问答与多模态推理提供了稀缺的意大利语评测数据，推动了多语言、多模态自然语言理解研究的均衡发展。

实际应用

在实际应用中，Pinocchio可用于开发与优化面向意大利语用户的智能问答系统、教育辅助平台及法律咨询工具。例如，其法律与科学子集可帮助训练能够处理专业文档的AI助手，提升在意大利本土场景下的信息检索与知识服务精度。此外，多模态部分适用于构建结合图像与文本的交互式学习系统，如自动批改考试题目或生成文化知识测验，从而在教育科技与语言服务领域发挥实际价值。

数据集最近研究