yuyijiong/multi-doc-qa-zh
收藏Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yuyijiong/multi-doc-qa-zh
下载链接
链接失效反馈官方服务:
资源简介:
多文档问答数据集,通过谷歌翻译成中文,用于微调处理更长文本的模型。任务要求模型在给定多个参考文档和一个问题的情况下,识别出包含有用信息的文档,并基于该文档回答问题。每个问题提供几十到上百个文档片段,其中只有一个文档包含有用信息,通过gold_document_id标识。源数据来自togethercomputer/Long-Data-Collections。
This is a multi-document question answering dataset translated into Chinese via Google Translate, intended for fine-tuning models that process longer text. The task requires the model to, given multiple reference documents and a question, identify the document containing useful information and answer the question based on that document. Each question is paired with dozens to hundreds of document segments, among which only one document carries valid useful information, which is identified via the gold_document_id field. The original source data is from togethercomputer/Long-Data-Collections.
提供机构:
yuyijiong
原始信息汇总
数据集概述
数据集名称
多文档QA数据集
许可
未知
任务类别
- 文本生成
- 问答
语言
- 中文
数据集描述
该数据集由谷歌翻译成中文,用于微调长度更大的模型。任务要求给定多个参考文档和一个问题,模型需要根据参考文档回答问题,并指出哪个文档包含有用信息。每个问题会提供几十或上百个文档片段,只有一个文档包含有用信息,gold_document_id表示含有有用信息的文档序号,注意文档是从1开始编号。
源数据
源数据来自 togethercomputer/Long-Data-Collections
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



