five

AgentPublic/piaf

收藏
Hugging Face2024-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AgentPublic/piaf
下载链接
链接失效反馈
官方服务:
资源简介:
Piaf是一个阅读理解数据集,包含3835个关于法语维基百科的问题。该数据集适用于问答任务,所有内容均为法语,采用MIT许可证。数据集的创建和语言标注是通过众包完成的,结构上包括id、title、context、question和answers等特征,其中answers包含text和answer_start。数据集分为一个包含3835个例子的训练集。

Piaf is a reading comprehension dataset containing 3,835 questions about French Wikipedia. It is designed for question answering tasks, with all content in French, and released under the MIT License. The dataset was created and linguistically annotated via crowdsourcing. Structurally, it includes features such as id, title, context, question, and answers, where the answers field consists of two sub-fields: text and answer_start. The dataset is split into a training set that includes all 3,835 examples.
提供机构:
AgentPublic
原始信息汇总

数据集概述

名称: Piaf

语言:

  • 语言: fr
  • 语言BCP47: fr-FR

许可: mit

多语言性: monolingual

大小类别: 1K<n<10K

源数据集: original

任务类别: question-answering

任务ID:

  • extractive-qa
  • open-domain-qa

数据集结构

数据实例

  • 数据集大小:

    • 下载大小: 1.31 MB
    • 生成数据集大小: 3.18 MB
    • 总磁盘使用: 4.49 MB
  • 训练集大小:

    • 字节数: 3332905
    • 示例数: 3835

数据字段

  • id: string
  • title: string
  • context: string
  • question: string
  • answers:
    • text: string
    • answer_start: int32

数据集创建

注释创建者: crowdsourced

语言创建者: crowdsourced

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Piaf是一个法语阅读理解数据集,包含3835个基于法文维基百科的问题,主要用于问答任务,特别是抽取式和开放域问答。数据集使用MIT许可证,格式为parquet,适合用于自然语言处理研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作