five

yuyijiong/multi-doc-qa-zh

收藏
Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuyijiong/multi-doc-qa-zh
下载链接
链接失效反馈
官方服务:
资源简介:
多文档问答数据集,通过谷歌翻译成中文,用于微调处理更长文本的模型。任务要求模型在给定多个参考文档和一个问题的情况下,识别出包含有用信息的文档,并基于该文档回答问题。每个问题提供几十到上百个文档片段,其中只有一个文档包含有用信息,通过gold_document_id标识。源数据来自togethercomputer/Long-Data-Collections。

This is a multi-document question answering dataset translated into Chinese via Google Translate, intended for fine-tuning models that process longer text. The task requires the model to, given multiple reference documents and a question, identify the document containing useful information and answer the question based on that document. Each question is paired with dozens to hundreds of document segments, among which only one document carries valid useful information, which is identified via the gold_document_id field. The original source data is from togethercomputer/Long-Data-Collections.
提供机构:
yuyijiong
原始信息汇总

数据集概述

数据集名称

多文档QA数据集

许可

未知

任务类别

  • 文本生成
  • 问答

语言

  • 中文

数据集描述

该数据集由谷歌翻译成中文,用于微调长度更大的模型。任务要求给定多个参考文档和一个问题,模型需要根据参考文档回答问题,并指出哪个文档包含有用信息。每个问题会提供几十或上百个文档片段,只有一个文档包含有用信息,gold_document_id表示含有有用信息的文档序号,注意文档是从1开始编号。

源数据

源数据来自 togethercomputer/Long-Data-Collections

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作