yuyijiong/Long-Instruction-with-Paraphrasing
收藏Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/yuyijiong/Long-Instruction-with-Paraphrasing
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-generation
language:
- zh
- en
license: cc-by-sa-4.0
---
## 🔥 Updates
**\[2024.6.4\]** Add a slim version. The sample number is reduced from about 20k to 10k.
**\[2024.5.28\]**
1. The data format is converted from "chatml" to "messages", which is more convenient to use ```tokenizer.apply_chat_template```. The old version has been moved to "legacy" branch.
2. The version without "Original text paraphrasing" is added.
# 📊 Long Context Instruction-tuning dataset with "Original text paraphrasing"
* [Paper](https://arxiv.org/abs/2312.11193)
* [Github](https://github.com/yuyijiong/train_with_paraphrasing)
* consist of multiple tasks
* Chinese and English
* sample length ranging from 4k to 32k
* the answer contains "Original text paraphrasing" part
# 长文本指令微调数据
* 此数据集由多种长文本任务数据集组合而成。
* 包含中文和英文
### <center> Dataset Composition (original version)</center>
")
### <center> Dataset Composition (slim version)</center>
")
## 源数据
此处给出各个数据集的链接集合。也可以直接点击我的个人主页查看所有数据集。
### 中文
1. [图书总结](https://huggingface.co/datasets/yuyijiong/Book_Summary_Chinese)
2. [论文摘要 ](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_Abstract)
涉及到知网数据,受限访问。
3. [论文问答](https://huggingface.co/datasets/yuyijiong/Chinese_Paper_QA)
涉及到知网数据,受限访问。
4. [多文档问答(检索)](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-Chinese)
### 英文
1. [多文档问答(检索)](https://huggingface.co/datasets/yuyijiong/Multi-Doc-QA-CommonCrawl)
### 中英
1. [长论文多任务](https://huggingface.co/datasets/yuyijiong/LongPaper_multitask)
2. [从ShareGPT中筛选的长对话(中英)](https://huggingface.co/datasets/yuyijiong/Sharegpt-long-conversation)
3. 预训练长文本语料库(中英)[LongData-Corpus
](https://huggingface.co/datasets/yuyijiong/LongData-Corpus)
提供机构:
yuyijiong
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 中文, 英文
- 许可证: CC BY-SA 4.0
更新记录
- 2024.6.4: 增加了精简版本,样本数量从约20k减少到10k。
- 2024.5.28:
- 数据格式从"chatml"转换为"messages",更便于使用
tokenizer.apply_chat_template。旧版本已移至"legacy"分支。 - 增加了不含"Original text paraphrasing"的版本。
- 数据格式从"chatml"转换为"messages",更便于使用
数据集详情
长文本指令微调数据集
- 描述: 此数据集由多种长文本任务数据集组合而成。
- 语言: 中文和英文
- 样本长度: 范围从4k到32k
- 特点: 答案包含"Original text paraphrasing"部分
数据集组成
- 原始版本:
- 精简版本:
源数据
中文数据集
- 图书总结
- 论文摘要
- 论文问答
- 多文档问答(检索)
英文数据集
- 多文档问答(检索)
中英数据集
- 长论文多任务
- 从ShareGPT中筛选的长对话(中英)
- 预训练长文本语料库(中英)
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于长上下文指令微调的多语言数据集,包含中文和英文,样本长度范围从4k到32k tokens,旨在通过'原文转述'技术提高长文本问答的准确性。它由多种任务组成,如书籍总结、论文摘要和多文档问答,并提供了原始版本和精简版本以支持不同需求。
以上内容由遇见数据集搜集并总结生成



