dynopii/OpenOrca-Top5percent

Name: dynopii/OpenOrca-Top5percent
Creator: dynopii
Published: 2024-03-13 10:39:51
License: 暂无描述

Hugging Face2024-03-13 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/dynopii/OpenOrca-Top5percent

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-Top5Percent数据集是OpenOrca数据集的一个精炼版本，专注于高频词汇的使用。该数据集包含了OpenOrca数据集中使用频率最高的5%的词汇，旨在为各种NLP任务提供高频词汇的聚焦。数据集基于增强的FLAN Collection数据，特别关注了约1M GPT-4和约3.2M GPT-3.5的完成情况中的最常用词汇。数据集的结构与原始OpenOrca数据集一致，包括id、system_prompt、question和response等字段，适用于语言建模、文本生成、摘要等任务。数据集的主要语言是英语，适用于教育应用、简化文本生成等场景。

提供机构：

dynopii

原始信息汇总

数据集概述

名称: OpenOrca-Top5Percent

描述: OpenOrca-Top5Percent 是一个精炼的数据集，包含原始 OpenOrca 数据集中使用频率最高的5%词汇的条目。该数据集旨在专注于高频词汇，适用于多种自然语言处理（NLP）任务。

语言: 英语

数据来源: 源自 OpenOrca 数据集，经过筛选，只包含使用频率最高的5%词汇的条目。

数据集结构

数据实例:

每个实例遵循原始 OpenOrca 数据集的结构，但仅包含使用频率最高的5%词汇的条目。

数据字段:

包括 id, system_prompt, question, response 等字段，与原始 OpenOrca 数据集保持一致。

数据分割:

数据集未进行分割，作为一个整体提供。

支持的任务

文本分类
令牌分类
表格问题回答
问答
零样本分类
摘要
特征提取
文本生成
文本到文本生成

使用场景

教育应用
简化文本生成

使用注意事项

用户应考虑数据集词汇范围缩小的影响，特别是在特定应用和研究中的使用。

引用信息

bibtex @misc{OpenOrca-Top5Percent, title = {OpenOrca-Top5Percent: A Filtered Subset of OpenOrca Focusing on High-Frequency Vocabulary}, author = {Anubhav Singh}, year = {2023}, publisher = {Dynopii}, journal = {HuggingFace repository}, howpublished = {url{https://huggingface.co/datasets/dynopii/OpenOrca-Top5percent}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集