IBM/multidoc2dial
收藏Hugging Face2023-08-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/IBM/multidoc2dial
下载链接
链接失效反馈官方服务:
资源简介:
MultiDoc2Dial是一个新的任务和数据集,专注于基于多文档的目标导向对话建模。与以往大多数将文档基础对话建模视为基于单一文档或段落的机器阅读理解任务不同,该数据集旨在解决更现实的场景,即目标导向的信息寻求对话涉及多个主题,并因此基于不同的文档。数据集包含多个配置,如dialogue_domain、document_domain和multidoc2dial,每个配置都有不同的特征和数据结构。数据集的主要任务是开放域问答和文档基础对话建模。数据集的创建是通过众包和专家生成的方式进行的,语言为英语,数据集规模在10K到100K之间。
MultiDoc2Dial是一个新的任务和数据集,专注于基于多文档的目标导向对话建模。与以往大多数将文档基础对话建模视为基于单一文档或段落的机器阅读理解任务不同,该数据集旨在解决更现实的场景,即目标导向的信息寻求对话涉及多个主题,并因此基于不同的文档。数据集包含多个配置,如dialogue_domain、document_domain和multidoc2dial,每个配置都有不同的特征和数据结构。数据集的主要任务是开放域问答和文档基础对话建模。数据集的创建是通过众包和专家生成的方式进行的,语言为英语,数据集规模在10K到100K之间。
提供机构:
IBM
原始信息汇总
数据集概述
名称: MultiDoc2Dial
语言: 英语
许可证: Apache-2.0
多语言性: 单语种
大小分类:
- 10K<n<100K
- 1K<n<10K
- n<1K
源数据集: 扩展自doc2dial
任务类别: 问答
任务ID: open-domain-qa
论文代码ID: multidoc2dial
美观名称: MultiDoc2Dial
配置名称:
- dialogue_domain
- document_domain
- multidoc2dial
数据集结构
对话域配置
- 特征:
- dial_id: 字符串
- domain: 字符串
- turns: 列表
- turn_id: int32
- role: 字符串
- da: 字符串
- references: 列表
- id_sp: 字符串
- label: 字符串
- doc_id: 字符串
- utterance: 字符串
- 数据分割:
- train: 3474个示例,11700558字节
- validation: 661个示例,2210338字节
- 下载大小: 6868509字节
- 数据集大小: 13910896字节
文档域配置
- 特征:
- domain: 字符串
- doc_id: 字符串
- title: 字符串
- doc_text: 字符串
- spans: 列表
- id_sp: 字符串
- tag: 字符串
- start_sp: int32
- end_sp: int32
- text_sp: 字符串
- title: 字符串
- parent_titles: 序列
- id_sp: 字符串
- text: 字符串
- level: 字符串
- id_sec: 字符串
- start_sec: int32
- text_sec: 字符串
- end_sec: int32
- doc_html_ts: 字符串
- doc_html_raw: 字符串
- 数据分割:
- train: 488个示例,29378879字节
- 下载大小: 6868509字节
- 数据集大小: 29378879字节
MultiDoc2Dial配置
- 特征:
- id: 字符串
- title: 字符串
- context: 字符串
- question: 字符串
- da: 字符串
- answers: 序列
- text: 字符串
- answer_start: int32
- utterance: 字符串
- domain: 字符串
- 数据分割:
- validation: 4201个示例,24331936字节
- train: 21451个示例,126589862字节
- test: 4094个示例,23026892字节
- 下载大小: 6868509字节
- 数据集大小: 173948690字节
数据集创建
标注创建者: 众包和专家生成
语言创建者: 众包和专家生成



