five

yuyijiong/Long-Instruction-with-Paraphrasing

收藏
Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/yuyijiong/Long-Instruction-with-Paraphrasing
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - text-generation language: - zh - en license: cc-by-sa-4.0 --- ## 🔥 Updates **\[2024.6.4\]** Add a slim version. The sample number is reduced from about 20k to 10k. **\[2024.5.28\]** 1. The data format is converted from "chatml" to "messages", which is more convenient to use ```tokenizer.apply_chat_template```. The old version has been moved to "legacy" branch. 2. The version without "Original text paraphrasing" is added. # 📊 Long Context Instruction-tuning dataset with "Original text paraphrasing" * [Paper](https://arxiv.org/abs/2312.11193) * [Github](https://github.com/yuyijiong/train_with_paraphrasing) * consist of multiple tasks * Chinese and English * sample length ranging from 4k to 32k * the answer contains "Original text paraphrasing" part # 长文本指令微调数据 * 此数据集由多种长文本任务数据集组合而成。 * 包含中文和英文 ### <center> Dataset Composition (original version)</center> ![](The_Proportion_of_Different_Tasks.png "Dataset Composition (original version)") ### <center> Dataset Composition (slim version)</center> ![](The_Proportion_of_Different_Tasks_Slim.png "Dataset Composition (slim version)") ## 源数据 此处给出各个数据集的链接集合。也可以直接点击我的个人主页查看所有数据集。 ### 中文 1. [图书总结](https://huggingface.co/datasets/yuyijiong/Book_Summary_Chinese) 2. [论文摘要 ](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_Abstract) 涉及到知网数据,受限访问。 3. [论文问答](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_QA) 涉及到知网数据,受限访问。 4. [多文档问答(检索)](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-Chinese) ### 英文 1. [多文档问答(检索)](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-CommonCrawl) ### 中英 1. [长论文多任务](https://huggingface.co/datasets/yuyijiong/LongPaper_multitask) 2. [从ShareGPT中筛选的长对话(中英)](https://huggingface.co/datasets/yuyijiong/Sharegpt-long-conversation) 3. 预训练长文本语料库(中英)[LongData-Corpus ](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)
提供机构:
yuyijiong
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 中文, 英文
  • 许可证: CC BY-SA 4.0

更新记录

  • 2024.6.4: 增加了精简版本,样本数量从约20k减少到10k。
  • 2024.5.28:
    1. 数据格式从"chatml"转换为"messages",更便于使用tokenizer.apply_chat_template。旧版本已移至"legacy"分支。
    2. 增加了不含"Original text paraphrasing"的版本。

数据集详情

长文本指令微调数据集

  • 描述: 此数据集由多种长文本任务数据集组合而成。
  • 语言: 中文和英文
  • 样本长度: 范围从4k到32k
  • 特点: 答案包含"Original text paraphrasing"部分

数据集组成

源数据

中文数据集

  1. 图书总结
  2. 论文摘要
  3. 论文问答
  4. 多文档问答(检索)

英文数据集

  1. 多文档问答(检索)

中英数据集

  1. 长论文多任务
  2. 从ShareGPT中筛选的长对话(中英)
  3. 预训练长文本语料库(中英)
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于长上下文指令微调的多语言数据集,包含中文和英文,样本长度范围从4k到32k tokens,旨在通过'原文转述'技术提高长文本问答的准确性。它由多种任务组成,如书籍总结、论文摘要和多文档问答,并提供了原始版本和精简版本以支持不同需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作