five

ZHR123/WebCPM_WK

收藏
Hugging Face2023-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZHR123/WebCPM_WK
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是由我们对WebCPM的pipeline数据进行二次处理之后构建而成。主要包括过滤原始数据中的一些低质量数据,使用GPT4和ChatGPT扩充原始数据,以及使用随机替换、拼接的方式增强原始数据。该数据集主要的目的是通过指令微调的方式提高LLM的两个能力:1. 给定问题和文档,抽取文档中与问题相关知识的能力。2. 给定参考材料和问题,根据参考材料回答问题的能力。

本数据集是由我们对WebCPM的pipeline数据进行二次处理之后构建而成。主要包括过滤原始数据中的一些低质量数据,使用GPT4和ChatGPT扩充原始数据,以及使用随机替换、拼接的方式增强原始数据。该数据集主要的目的是通过指令微调的方式提高LLM的两个能力:1. 给定问题和文档,抽取文档中与问题相关知识的能力。2. 给定参考材料和问题,根据参考材料回答问题的能力。
提供机构:
ZHR123
原始信息汇总

数据集概述

数据集名称

  • Pretty Name: WebCPM_WK-Dataset

数据集描述

  • 语言: 中文
  • 标签: finetuning
  • 任务类别: text-generation

数据集总结

  • 本数据集是对WebCPM的pipeline数据进行二次处理后的产物。
  • 处理包括过滤低质量数据,使用GPT4和ChatGPT扩充数据,以及通过随机替换、拼接增强数据。
  • 主要目的:
    1. 提高LLM从文档中抽取与问题相关知识的能力。
    2. 提高LLM根据参考材料回答问题的能力。

许可信息

  • 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作