five

elkarhizketak

收藏
Hugging Face2025-05-29 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/HiTZ/elkarhizketak
下载链接
链接失效反馈
官方服务:
资源简介:
ElkarHizketak 是一个低资源巴斯克语对话问答数据集,由巴斯克语志愿者创建。该数据集包含大约 400 个对话和超过 1600 个问题和答案。它基于关于名人或组织的维基百科章节构建,对话涉及一个学生在阅读关于个人的简介后提问,一个教师选择章节中的文本片段作为答案。数据集分为训练集、开发集和测试集,每个集合中的问题和对话数量都有明确说明。README 还包括数据集创建者、许可和引用信息。
提供机构:
HiTZ zentroa
创建时间:
2025-05-29
原始信息汇总

ElkarHizketak 数据集概述

数据集描述

数据集摘要

  • ElkarHizketak 是一个低资源的巴斯克语对话式问答(QA)数据集,由巴斯克语志愿者创建。
  • 包含近400个对话和超过1600个问答对,规模较小,适用于低资源场景的对话式QA系统研究。
  • 数据集基于维基百科中关于知名人物和组织的章节构建。
  • 对话涉及两名众包工作者:学生(提问)和教师(回答)。

支持的任务

  • extractive-qa:用于训练对话式问答模型。

语言

  • 数据集文本为巴斯克语(Basque,语言代码:eu)。

数据集结构

数据实例

  • 示例字段包括:
    • dialogue_id:对话唯一标识符
    • wikipedia_page_title:维基百科页面标题
    • background:背景信息
    • section_title:章节标题
    • context:上下文文本
    • turn_id:对话轮次ID
    • question:问题文本
    • yesno:是否为是非问题(y/n/x)
    • answers:包含答案文本、起始位置和输入文本的字典
    • orig_answer:原始答案信息

数据字段

  • 主要字段:
    • dialogue_id:字符串
    • wikipedia_page_title:字符串
    • background:字符串
    • section_title:字符串
    • context:字符串
    • turn_ids:字符串序列
    • questions:字符串序列
    • yesnos:分类标签序列(0: y, 1: n, 2: x)
    • answers:包含textsanswer_startsinput_texts的结构
    • orig_answers:包含textsanswer_starts的结构

数据划分

  • 训练集:301个对话,1,306个问题
  • 验证集:38个对话,161个问题
  • 测试集:38个对话,167个问题

数据集创建

创建动机

  • 首个非英语对话式QA数据集,也是首个巴斯克语对话数据集。
  • 小规模设计反映真实低资源场景。

数据来源

  • 初始数据收集:
    • 从巴斯克语维基百科的传记类文章中选取章节。
    • 通过在线会话收集对话,参与者为巴斯克语志愿者。

语言生产者

  • 巴斯克语志愿者通过文本聊天界面进行对话。

许可信息

  • 许可证:CC BY-SA 4.0
  • 许可链接:https://creativecommons.org/licenses/by-sa/4.0/legalcode

引用信息

bibtex @inproceedings{otegi-etal-2020-conversational, title = "{Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque}", author = "Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.55", pages = "436--442" }

贡献者

  • 由HiTZ巴斯克语言技术中心和Ixa NLP Group(UPV/EHU)的Arantxa Otegi等人创建。
  • 贡献者:@antxa
搜集汇总
数据集介绍
main_image_url
构建方式
ElkarHizketak数据集的构建基于巴斯克语维基百科中的人物传记章节,通过精心筛选包含175至300个单词的段落,确保对话内容的丰富性与适宜性。数据收集过程中,两位巴斯克语志愿者分别扮演学生和教师的角色,学生根据人物简介提问,教师则从维基百科段落中选取文本片段作答。这一设计模拟了真实的对话场景,同时保证了数据的多样性和自然性。
使用方法
ElkarHizketak数据集适用于训练和评估对话式问答系统,尤其适合低资源语言场景的研究。使用时,可通过加载数据集并访问其训练、验证和测试分割,分别包含301、38和38段对话。研究人员可利用提供的字段信息,如问题、回答及上下文,构建模型并进行性能测试。数据集的CC BY-SA 4.0许可证允许广泛的学术和非商业用途,使用时需遵守相应的引用要求。
背景与挑战
背景概述
ElkarHizketak数据集由巴斯克大学HiTZ语言技术中心和Ixa NLP小组的Arantxa Otegi等人于2020年创建,旨在解决低资源语言环境下对话式问答系统的研究问题。作为首个非英语对话式问答数据集和巴斯克语专用对话数据集,其基于巴斯克语维基百科人物章节构建,包含近400组对话和1600余组问答对。该数据集通过模拟真实教学场景,由志愿者扮演学生和教师角色进行对话生成,为研究低资源语言处理提供了重要基准,对推动少数民族语言的自然语言处理研究具有开创性意义。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,低资源语言环境下的对话式问答存在语义理解复杂度高、上下文依赖性强等特性,而巴斯克语作为孤立语系语言的特殊语法结构进一步增加了模型建模难度;在构建过程层面,受限于巴斯克语使用人口基数,数据采集需依赖有限志愿者群体,导致样本规模较小且可能存在领域偏差,同时对话标注过程中需要协调双语工作者进行复杂的问答对匹配,这些因素共同构成了数据质量控制与规模扩展的双重挑战。
常用场景
经典使用场景
在巴斯克语这一低资源语言环境中,ElkarHizketak数据集为对话式问答系统的开发提供了重要支持。该数据集基于维基百科人物传记章节构建,通过模拟师生对话的形式,收集了近400段对话和1600多个问答对。这种结构使得研究人员能够深入探究低资源语言环境下对话系统的表现,特别是在信息抽取和上下文理解方面的能力。数据集中的对话场景设计巧妙,学生根据人物简介提问,教师则从维基百科文本中选取答案,这种设置很好地模拟了真实的知识问答场景。
解决学术问题
ElkarHizketak数据集有效解决了低资源语言环境下对话式问答系统研究的核心难题。作为首个巴斯克语对话问答数据集,它填补了该领域的研究空白,为探索低资源语言处理提供了宝贵实证。数据集的小规模特性恰好反映了现实中的低资源场景,使研究者能够专注于模型在数据稀缺情况下的表现。通过分析模型在该数据集上的表现,学者们能够深入理解跨语言迁移学习、小样本学习等关键问题,推动对话系统在低资源语言环境中的发展。
实际应用
在实际应用层面,ElkarHizketak数据集为巴斯克语地区的智能客服、教育辅助系统等应用提供了重要基础。基于该数据集训练的问答系统可应用于博物馆导览、旅游信息咨询等场景,为用户提供自然流畅的巴斯克语交互体验。同时,该数据集也为政府部门和企业的巴斯克语信息服务系统开发提供了技术支撑,有助于保护和推广这一少数民族语言在数字时代的使用。
数据集最近研究
最新研究方向
在低资源语言处理领域,巴斯克语作为欧洲罕见的孤立语言,其自然语言处理研究长期面临数据稀缺的挑战。ElkarHizketak数据集的建立为巴斯克语对话式问答系统研究提供了重要基础。当前研究主要聚焦于三个方向:跨语言迁移学习在低资源场景中的应用探索,通过预训练语言模型将高资源语言的知识迁移至巴斯克语;对话系统的增量学习机制设计,针对该数据集小规模但高质量的特性开发高效学习算法;以及多轮对话理解中的指代消解研究,利用该数据集独特的对话结构特性推进上下文感知的问答建模。这些研究不仅对保护巴斯克语这一濒危语言具有重要意义,也为全球6000余种低资源语言的智能化处理提供了可借鉴的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作