ZHR123/WebCPM_WK
收藏Hugging Face2023-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZHR123/WebCPM_WK
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是由我们对WebCPM的pipeline数据进行二次处理之后构建而成。主要包括过滤原始数据中的一些低质量数据,使用GPT4和ChatGPT扩充原始数据,以及使用随机替换、拼接的方式增强原始数据。该数据集主要的目的是通过指令微调的方式提高LLM的两个能力:1. 给定问题和文档,抽取文档中与问题相关知识的能力。2. 给定参考材料和问题,根据参考材料回答问题的能力。
本数据集是由我们对WebCPM的pipeline数据进行二次处理之后构建而成。主要包括过滤原始数据中的一些低质量数据,使用GPT4和ChatGPT扩充原始数据,以及使用随机替换、拼接的方式增强原始数据。该数据集主要的目的是通过指令微调的方式提高LLM的两个能力:1. 给定问题和文档,抽取文档中与问题相关知识的能力。2. 给定参考材料和问题,根据参考材料回答问题的能力。
提供机构:
ZHR123
原始信息汇总
数据集概述
数据集名称
- Pretty Name: WebCPM_WK-Dataset
数据集描述
- 语言: 中文
- 标签: finetuning
- 任务类别: text-generation
数据集总结
- 本数据集是对WebCPM的pipeline数据进行二次处理后的产物。
- 处理包括过滤低质量数据,使用GPT4和ChatGPT扩充数据,以及通过随机替换、拼接增强数据。
- 主要目的:
- 提高LLM从文档中抽取与问题相关知识的能力。
- 提高LLM根据参考材料回答问题的能力。
许可信息
- 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)



