benjleite/FairytaleQA-translated-romanian
收藏数据集卡片:FairytaleQA-translated-ptBR
数据集描述
数据集概述
本仓库包含原始英语FairytaleQA数据集的罗马尼亚语机器翻译版本(原数据集链接:https://huggingface.co/datasets/WorkInTheDark/FairytaleQA)。FairytaleQA是一个开源数据集,旨在提高幼儿园至八年级学生的叙事理解能力。该数据集由教育专家根据基于证据的理论框架精心注释,包含从278个适合儿童的故事中提取的10,580个显式和隐式问题,涵盖七种类型的叙事元素或关系。本次翻译是我们的研究项目“FairytaleQA Translated: Enabling Educational Question and Answer Generation in Less-Resourced Languages”的一部分,使用DeepL进行翻译。
支持的任务和排行榜
支持的任务包括:问答(Question-Answering)、问题生成(Question-Generation)、问答对生成(Question-Answer Pair Generation)。
语言
数据集语言为罗马尼亚语。
示例
以下是“train”数据集的一个示例:
json { "story_name": "the-toad-woman-story", "story_section": "O tânără care locuia singură în pădure,...", "question": "Pe cine a văzut femeia alunecând în pădure?", "answer": "Un tânăr chipeș.", "local-or-sum": "local", "attribute": "character", "ex-or-im": "explicit", "ex-or-im2": "" }
数据集结构
story_name:故事名称的字符串,表示故事部分内容所属的故事。story_section:故事部分内容的字符串,与专家标注的QA对相关。用于问题生成和问答任务的输入。question:问题内容的字符串。用于问答任务的输入和问题生成任务的输出。answer:答案内容的字符串,用于所有拆分的数据。用于问题生成任务的输入和问答任务的输出。local_or_sum:字符串,表示QA是与一个故事部分相关还是与多个部分相关。attribute:字符串,表示由教育专家标注的七种叙事元素之一:角色、因果关系、动作、设定、情感、预测或结果解决。ex_or_im1:字符串,表示答案是显式还是隐式,即答案是否可以直接在故事内容中找到。ex_or_im2:与ex_or_im1类似,但由另一个标注者标注(仅适用于测试/验证拆分)。
数据拆分
数据集的拆分大小如下:
| Train | Validation | Test | |
|---|---|---|---|
| # Books | 232 | 23 | 23 |
| # QA-Pairs | 8548 | 1025 | 1007 |



