five

sapienzanlp/boolq_italian

收藏
Hugging Face2025-12-02 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sapienzanlp/boolq_italian
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是BoolQ数据集的意大利语翻译版本,主要用于文本生成任务,支持意大利语和英语。数据集的任务是基于提供的上下文预测问题的答案是真还是假。每个问题都提供了一个来自维基百科的文本片段作为上下文。数据集包括训练集和验证集,分别包含9,427行和3,270行数据。与原始数据集相比,该版本对问题进行了格式调整,并减少了实例数量。数据集完全并行于英语和意大利语,使用开源工具OBenTO-LLM进行翻译。数据集格式包括唯一ID、任务类型、原始英语句子、意大利语翻译、选择项、选择项翻译、标签和元数据。

This dataset is an Italian translation of the BoolQ dataset, primarily used for text generation tasks, supporting both Italian and English. The task involves predicting whether the answer to a question is true or false based on the provided context. Each question is accompanied by a text snippet from Wikipedia as the context. The dataset includes training and validation sets, containing 9,427 and 3,270 rows respectively. Compared to the original dataset, this version has adjusted the format of the questions and reduced the number of instances. The dataset is fully parallel between English and Italian, translated using the open-source tool OBenTO-LLM. The dataset format includes a unique ID, task category, original English sentence, Italian translation, choices, choice translations, label, and metadata.
提供机构:
sapienzanlp
原始信息汇总

BoolQ - Italian (IT)

数据集概述

  • 任务类别: 文本生成
  • 语言: 意大利语, 英语
  • 数据集大小: 1K<n<10K
  • 配置:
    • default
      • train: boolq.train.json
      • validation: boolq.validation.json

数据集详情

  • 任务: 根据问题提供的上下文预测答案是真还是假。
  • 数据集拆分:
    • train: 9,427 行
    • validation: 3,270 行

与原始数据集的差异

  • 原始数据集中的问题并非真正的问句,本版本中已将问题首字母大写并添加问号。
  • 由于翻译过程中部分实例被过滤,本数据集实例数量少于原始数据集。

语言

  • 数据集在英语和意大利语之间完全平行,便于在两种语言间进行可比较的评估。

翻译过程

其他信息

  • 原始数据集作者: Clark et al.
  • 翻译者: Simone Conia
  • 语言: 意大利语, 英语
  • 许可证: CC BY-SA 3.0

数据集格式

  • 字段:
    • id: 每个样本的唯一ID
    • category: 任务类型
    • input_text: 原始英语句子
    • input_text_translation: 意大利语翻译
    • choices: 原始英语选项
    • choice_translations: 意大利语选项翻译
    • label: 答案是真还是假
    • metadata: 包含帮助回答问题的文本段落

示例

json { "id": "boolq_0", "category": "question", "input_text": "Does ethanol take more energy make that produces?", "input_text_translation": "Letanolo richiede più energia di quella che produce?", "label": false, "metadata": { "passage": "All biomass goes through at least some of these steps: it needs to be grown, collected, dried, fermented, distilled, and burned. All of these steps require resources and an infrastructure. The total amount of energy input into the process compared to the energy released by burning the resulting ethanol fuel is known as the energy balance (or energy returned on energy invested). Figures compiled in a 2007 report by National Geographic Magazine point to modest results for corn ethanol produced in the US: one unit of fossil-fuel energy is required to create 1.3 energy units from the resulting ethanol. The energy balance for sugarcane ethanol produced in Brazil is more favorable, with one unit of fossil-fuel energy required to create 8 from the ethanol. Energy balance estimates are not easily produced, thus numerous such reports have been generated that are contradictory. For instance, a separate survey reports that production of ethanol from sugarcane, which requires a tropical climate to grow productively, returns from 8 to 9 units of energy for each unit expended, as compared to corn, which only returns about 1.34 units of fuel energy for each unit of energy expended. A 2006 University of California Berkeley study, after analyzing six separate studies, concluded that producing ethanol from corn uses much less petroleum than producing gasoline.", "passage_translation": "Tutte le biomasse passano attraverso almeno una di queste fasi: devono essere coltivate, raccolte, essiccate, fermentate, distillate e bruciate. Tutte queste fasi richiedono risorse e uninfrastruttura. La quantità totale di energia immessa nel processo rispetto allenergia rilasciata dal bruciare il carburante etanolo risultante è conosciuta come bilancio energetico (o energia restituita sullenergia investita). I dati compilati in un rapporto del 2007 della National Geographic Magazine indicano risultati modesti per letanolo da mais prodotto negli Stati Uniti: è richiesta una unità di energia da combustibili fossili per creare 1,3 unità di energia dalletanolo risultante. Il bilancio energetico per letanolo da canna da zucchero prodotto in Brasile è più favorevole, con una unità di energia da combustibili fossili richiesta per creare 8 dalletanolo. Le stime del bilancio energetico non sono facilmente prodotte, pertanto sono stati generati numerosi rapporti che sono contraddittori. Ad esempio, un sondaggio separato riferisce che la produzione di etanolo dalla canna da zucchero, che richiede un clima tropicale per crescere in modo produttivo, restituisce da 8 a 9 unità di energia per ogni unità spesa, rispetto al mais, che restituisce solo circa 1,34 unità di energia per ogni unità di energia spesa. Uno studio del 2006 dellUniversità della California a Berkeley, dopo aver analizzato sei studi separati, ha concluso che la produzione di etanolo da mais utilizza molto meno petrolio rispetto alla produzione di benzina." } }

许可证

  • 数据集在 CC BY-SA 3.0 许可证下发布。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作