five

IBM/multidoc2dial

收藏
Hugging Face2023-08-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/IBM/multidoc2dial
下载链接
链接失效反馈
官方服务:
资源简介:
MultiDoc2Dial是一个新的任务和数据集,专注于基于多文档的目标导向对话建模。与以往大多数将文档基础对话建模视为基于单一文档或段落的机器阅读理解任务不同,该数据集旨在解决更现实的场景,即目标导向的信息寻求对话涉及多个主题,并因此基于不同的文档。数据集包含多个配置,如dialogue_domain、document_domain和multidoc2dial,每个配置都有不同的特征和数据结构。数据集的主要任务是开放域问答和文档基础对话建模。数据集的创建是通过众包和专家生成的方式进行的,语言为英语,数据集规模在10K到100K之间。

MultiDoc2Dial是一个新的任务和数据集,专注于基于多文档的目标导向对话建模。与以往大多数将文档基础对话建模视为基于单一文档或段落的机器阅读理解任务不同,该数据集旨在解决更现实的场景,即目标导向的信息寻求对话涉及多个主题,并因此基于不同的文档。数据集包含多个配置,如dialogue_domain、document_domain和multidoc2dial,每个配置都有不同的特征和数据结构。数据集的主要任务是开放域问答和文档基础对话建模。数据集的创建是通过众包和专家生成的方式进行的,语言为英语,数据集规模在10K到100K之间。
提供机构:
IBM
原始信息汇总

数据集概述

名称: MultiDoc2Dial

语言: 英语

许可证: Apache-2.0

多语言性: 单语种

大小分类:

  • 10K<n<100K
  • 1K<n<10K
  • n<1K

源数据集: 扩展自doc2dial

任务类别: 问答

任务ID: open-domain-qa

论文代码ID: multidoc2dial

美观名称: MultiDoc2Dial

配置名称:

  • dialogue_domain
  • document_domain
  • multidoc2dial

数据集结构

对话域配置

  • 特征:
    • dial_id: 字符串
    • domain: 字符串
    • turns: 列表
      • turn_id: int32
      • role: 字符串
      • da: 字符串
      • references: 列表
        • id_sp: 字符串
        • label: 字符串
        • doc_id: 字符串
      • utterance: 字符串
  • 数据分割:
    • train: 3474个示例,11700558字节
    • validation: 661个示例,2210338字节
    • 下载大小: 6868509字节
    • 数据集大小: 13910896字节

文档域配置

  • 特征:
    • domain: 字符串
    • doc_id: 字符串
    • title: 字符串
    • doc_text: 字符串
    • spans: 列表
      • id_sp: 字符串
      • tag: 字符串
      • start_sp: int32
      • end_sp: int32
      • text_sp: 字符串
      • title: 字符串
      • parent_titles: 序列
        • id_sp: 字符串
        • text: 字符串
        • level: 字符串
      • id_sec: 字符串
      • start_sec: int32
      • text_sec: 字符串
      • end_sec: int32
    • doc_html_ts: 字符串
    • doc_html_raw: 字符串
  • 数据分割:
    • train: 488个示例,29378879字节
    • 下载大小: 6868509字节
    • 数据集大小: 29378879字节

MultiDoc2Dial配置

  • 特征:
    • id: 字符串
    • title: 字符串
    • context: 字符串
    • question: 字符串
    • da: 字符串
    • answers: 序列
      • text: 字符串
      • answer_start: int32
    • utterance: 字符串
    • domain: 字符串
  • 数据分割:
    • validation: 4201个示例,24331936字节
    • train: 21451个示例,126589862字节
    • test: 4094个示例,23026892字节
    • 下载大小: 6868509字节
    • 数据集大小: 173948690字节

数据集创建

标注创建者: 众包和专家生成

语言创建者: 众包和专家生成

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作