cnmoro/Text_Structuring_SOLAR_10.7B_Distilled
收藏Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cnmoro/Text_Structuring_SOLAR_10.7B_Distilled
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过使用TheBloke/SOLAR-10.7B-Instruct-v1.0-AWQ模型生成的,目的是在RAG(Retrieval-Augmented Generation)上下文中从给定的源文本生成结构更好的文本。数据集的任务类别是摘要生成,语言为英语,规模在10万到100万之间。数据集的生成方法是通过模型执行特定的提示,从上下文中提取所有关键事实,包括主题、结论、想法、地点、日期、值以及其他相关信息,并以更有序的形式呈现。最终目标是微调一个较小的模型,使其能够完成此任务,并成为RAG管道的一部分,以提供更清晰、更易读的文本供更大的LLM(大型语言模型)使用。
This dataset was generated using the TheBloke/SOLAR-10.7B-Instruct-v1.0-AWQ model, with the objective of producing better-structured texts from given source texts within the context of Retrieval-Augmented Generation (RAG). The dataset is categorized under text summarization task, is in English, and has a scale ranging from 100,000 to 1,000,000 samples. The generation method entails the model executing specific prompts to extract all key facts from the context, including topics, conclusions, ideas, locations, dates, values and other relevant information, and presenting them in a more organized format. The ultimate goal is to fine-tune a smaller model to accomplish this task, and integrate it into the RAG pipeline to provide clearer and more readable texts for larger LLMs (Large Language Models).
提供机构:
cnmoro
原始信息汇总
数据集概述
许可证
- MIT
任务类别
- 摘要生成
语言
- 英语
数据集名称
- text structuring
数据集大小
- 100K<n<1M
数据集目标
- 从给定源文本生成结构更好的文本,特别是在RAG(Retrieval-Augmented Generation)上下文中。
输入处理
-
每个输入通过以下提示执行: plaintext Context:
$INPUT
From the context, list all the essential facts about the text (if any): All themes; All conclusions; All ideas; All locations; All dates; All values; And any other relevant information.
Your answer must contain each category and its facts.
数据集特点
- 这是一种摘要生成,但以更组织化的形式分解信息。
数据集用途
- 用于微调较小模型,以便它可以成为RAG管道的组成部分,提供更清晰、更具可读性的文本,供更大的LLM(大型语言模型)处理并提供答案。



