pinocchio

Hugging Face2024-07-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mii-llm/pinocchio

下载链接

链接失效反馈

官方服务：

资源简介：

Pinocchio数据集是一个全面且具有挑战性的自然语言理解（NLU）数据集，旨在严格评估语言模型的能力，特别是意大利语言、文化和各种专业领域。该数据集包括多个配置，如多模态和文本，涵盖了广泛的主题，包括一般知识、意大利文化、法律、外语、逻辑、数学和科学。数据集的主要语言是意大利语，但也包括一些外语任务，以评估外语能力。数据集的特点包括意大利语言和文化的全面关注、多样化的专业领域、多模态评估以及难度分层。

The Pinocchio Dataset is a comprehensive and challenging natural language understanding (NLU) dataset developed to rigorously assess the capabilities of language models, with a specific emphasis on Italian language, culture and a wide range of professional domains. It provides multiple configurations including multimodal and text-based variants, spanning diverse topics such as general knowledge, Italian culture, law, foreign languages, logic, mathematics and science. While Italian serves as the primary language of the dataset, it also incorporates certain foreign language tasks to evaluate foreign language proficiency. The key characteristics of the dataset include comprehensive coverage of Italian language and culture, diversified professional domains, multimodal evaluation capabilities, and stratified difficulty levels.

创建时间：

2024-07-16

原始信息汇总

数据集概述

基本信息

语言: 意大利语, 英语
许可证: Apache 2.0
大小类别: 100K<n<1M
任务类别: 问答
美观名称: Pinocchio

数据集配置

多模态配置

配置名称: multimodal
特征:
- question: 字符串
- options: 列表
  - key: 字符串
  - value: 字符串
- answer: 字符串
- image: 图像
- macro: 字符串
- category: 字符串
分割:
- generale:
  - 字节数: 673172291.25
  - 示例数: 34275
下载大小: 590129851
数据集大小: 673172291.25

文本配置

配置名称: text
特征:
- question: 字符串
- options: 列表
  - key: 字符串
  - value: 字符串
- answer: 字符串
- macro: 字符串
- category: 字符串
分割:
- cultura:
  - 字节数: 4058099
  - 示例数: 10000
- diritto:
  - 字节数: 4552269
  - 示例数: 10000
- lingua_straniera:
  - 字节数: 1918919
  - 示例数: 10000
- logica:
  - 字节数: 3466676
  - 示例数: 10000
- matematica_e_scienze:
  - 字节数: 2632463
  - 示例数: 10000
- generale:
  - 字节数: 20438794
  - 示例数: 52574
下载大小: 19120837
数据集大小: 37067220

配置文件

多模态配置:
- 分割: generale
- 路径: multimodal/generale-*
文本配置:
- 分割:
  - cultura: text/cultura-*
  - diritto: text/diritto-*
  - lingua_straniera: text/lingua_straniera-*
  - logica: text/logica-*
  - matematica_e_scienze: text/matematica_e_scienze-*
  - generale: text/generale-*

Pinocchio数据集的构建基于大量意大利语数据，主要来源于真实世界的考试题目、专业评估以及特定领域的挑战。通过这种方式，数据集能够准确反映意大利学术和专业环境中所需的知识和技能。数据集的构建过程注重多样性和专业性，涵盖了法律、外语、逻辑、数学和科学等多个领域，确保了其在实际应用中的广泛适用性。

特点

Pinocchio数据集以其独特的意大利语和文化焦点而著称，填补了自然语言理解评估中的关键空白。数据集不仅包含文本形式的问题，还提供了多模态的评估任务，结合了文本和图像的理解。此外，数据集通过精心设计的子集，实现了对模型能力的细致评估，涵盖了从一般知识到特定领域的广泛主题。

使用方法

Pinocchio数据集的使用方法多样，适用于评估语言模型在意大利语和文化背景下的理解能力。用户可以通过数据集中的多模态任务来测试模型对文本和图像的综合理解能力。此外，数据集的不同子集可用于特定领域的深入评估，如法律、外语、逻辑和STEM等。通过这种方式，研究人员可以全面了解模型在不同领域的表现，并进行针对性的优化和改进。

背景与挑战

背景概述

Pinocchio数据集由Edoardo Federici于2024年7月16日发布，旨在为自然语言理解（NLU）领域提供一个全面且具有挑战性的评估工具。该数据集特别关注意大利语言和文化，涵盖了法律、外语、逻辑、数学与科学等多个专业领域。Pinocchio的独特之处在于其多模态评估能力，结合了文本和图像任务，能够深入评估模型在不同领域的表现。该数据集的发布填补了意大利语NLU评估的空白，为相关领域的研究提供了重要的数据支持。

当前挑战

Pinocchio数据集在构建和应用过程中面临多重挑战。首先，其核心任务是解决意大利语自然语言理解中的多领域问题，包括文化、法律、逻辑推理等，这对模型的跨领域知识整合能力提出了较高要求。其次，数据集的构建过程中，如何确保问题的多样性和难度分层，同时保持文化敏感性，是一个复杂的技术难题。此外，多模态数据的整合与标注也带来了额外的挑战，尤其是在图像与文本的关联性处理上，需要精细的设计与验证。这些挑战共同构成了Pinocchio数据集在NLU领域中的独特价值与研究意义。

常用场景

经典使用场景

Pinocchio数据集在自然语言理解（NLU）领域中被广泛用于评估语言模型的能力，尤其是在意大利语和文化背景下的表现。该数据集通过多模态和文本形式的问题，涵盖了从一般知识到专业领域的广泛主题，如法律、外语、逻辑和科学等，为研究者提供了一个全面的评估平台。

实际应用

在实际应用中，Pinocchio数据集可用于开发和教育领域，帮助构建更智能的语言模型，尤其是在意大利语环境中。例如，它可以用于开发智能教育系统，提供个性化的学习体验，或用于法律和科学领域的专业问答系统，提升这些领域的自动化水平。

衍生相关工作

Pinocchio数据集的发布推动了多语言和多模态模型的研究。基于该数据集，许多研究团队开发了新的模型和算法，特别是在跨语言推理和文化特定任务上的表现。这些工作不仅提升了模型的泛化能力，还为多语言NLU领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集