yuyijiong/Long-Instruction-with-Paraphrasing

Name: yuyijiong/Long-Instruction-with-Paraphrasing
Creator: yuyijiong
Published: 2024-06-08 07:54:36
License: 暂无描述

Hugging Face2024-06-08 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/yuyijiong/Long-Instruction-with-Paraphrasing

下载链接

链接失效反馈

官方服务：

资源简介：

--- task_categories: - text-generation language: - zh - en license: cc-by-sa-4.0 --- ## 🔥 Updates **\[2024.6.4\]** Add a slim version. The sample number is reduced from about 20k to 10k. **\[2024.5.28\]** 1. The data format is converted from "chatml" to "messages", which is more convenient to use ```tokenizer.apply_chat_template```. The old version has been moved to "legacy" branch. 2. The version without "Original text paraphrasing" is added. # 📊 Long Context Instruction-tuning dataset with "Original text paraphrasing" * [Paper](https://arxiv.org/abs/2312.11193) * [Github](https://github.com/yuyijiong/train_with_paraphrasing) * consist of multiple tasks * Chinese and English * sample length ranging from 4k to 32k * the answer contains "Original text paraphrasing" part # 长文本指令微调数据 * 此数据集由多种长文本任务数据集组合而成。 * 包含中文和英文 ### <center> Dataset Composition (original version)</center> ![](The_Proportion_of_Different_Tasks.png "Dataset Composition (original version)") ### <center> Dataset Composition (slim version)</center> ![](The_Proportion_of_Different_Tasks_Slim.png "Dataset Composition (slim version)") ## 源数据此处给出各个数据集的链接集合。也可以直接点击我的个人主页查看所有数据集。 ### 中文 1. [图书总结](https://huggingface.co/datasets/yuyijiong/Book_Summary_Chinese) 2. [论文摘要 ](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_Abstract) 涉及到知网数据，受限访问。 3. [论文问答](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_QA) 涉及到知网数据，受限访问。 4. [多文档问答（检索）](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-Chinese) ### 英文 1. [多文档问答（检索）](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-CommonCrawl) ### 中英 1. [长论文多任务](https://huggingface.co/datasets/yuyijiong/LongPaper_multitask) 2. [从ShareGPT中筛选的长对话（中英）](https://huggingface.co/datasets/yuyijiong/Sharegpt-long-conversation) 3. 预训练长文本语料库（中英）[LongData-Corpus ](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)

提供机构：

yuyijiong

原始信息汇总

数据集概述

基本信息

任务类别: 文本生成
语言: 中文, 英文
许可证: CC BY-SA 4.0

更新记录

2024.6.4: 增加了精简版本，样本数量从约20k减少到10k。
2024.5.28:
1. 数据格式从"chatml"转换为"messages"，更便于使用tokenizer.apply_chat_template。旧版本已移至"legacy"分支。
2. 增加了不含"Original text paraphrasing"的版本。