five

dynopii/OpenOrca-Top5percent

收藏
Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/dynopii/OpenOrca-Top5percent
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca-Top5Percent数据集是OpenOrca数据集的一个精炼版本,专注于高频词汇的使用。该数据集包含了OpenOrca数据集中使用频率最高的5%的词汇,旨在为各种NLP任务提供高频词汇的聚焦。数据集基于增强的FLAN Collection数据,特别关注了约1M GPT-4和约3.2M GPT-3.5的完成情况中的最常用词汇。数据集的结构与原始OpenOrca数据集一致,包括id、system_prompt、question和response等字段,适用于语言建模、文本生成、摘要等任务。数据集的主要语言是英语,适用于教育应用、简化文本生成等场景。

OpenOrca-Top5Percent数据集是OpenOrca数据集的一个精炼版本,专注于高频词汇的使用。该数据集包含了OpenOrca数据集中使用频率最高的5%的词汇,旨在为各种NLP任务提供高频词汇的聚焦。数据集基于增强的FLAN Collection数据,特别关注了约1M GPT-4和约3.2M GPT-3.5的完成情况中的最常用词汇。数据集的结构与原始OpenOrca数据集一致,包括id、system_prompt、question和response等字段,适用于语言建模、文本生成、摘要等任务。数据集的主要语言是英语,适用于教育应用、简化文本生成等场景。
提供机构:
dynopii
原始信息汇总

数据集概述

名称: OpenOrca-Top5Percent

描述: OpenOrca-Top5Percent 是一个精炼的数据集,包含原始 OpenOrca 数据集中使用频率最高的5%词汇的条目。该数据集旨在专注于高频词汇,适用于多种自然语言处理(NLP)任务。

语言: 英语

数据来源: 源自 OpenOrca 数据集,经过筛选,只包含使用频率最高的5%词汇的条目。

数据集结构

数据实例:

  • 每个实例遵循原始 OpenOrca 数据集的结构,但仅包含使用频率最高的5%词汇的条目。

数据字段:

  • 包括 id, system_prompt, question, response 等字段,与原始 OpenOrca 数据集保持一致。

数据分割:

  • 数据集未进行分割,作为一个整体提供。

支持的任务

  • 文本分类
  • 令牌分类
  • 表格问题回答
  • 问答
  • 零样本分类
  • 摘要
  • 特征提取
  • 文本生成
  • 文本到文本生成

使用场景

  • 教育应用
  • 简化文本生成

使用注意事项

  • 用户应考虑数据集词汇范围缩小的影响,特别是在特定应用和研究中的使用。

引用信息

bibtex @misc{OpenOrca-Top5Percent, title = {OpenOrca-Top5Percent: A Filtered Subset of OpenOrca Focusing on High-Frequency Vocabulary}, author = {Anubhav Singh}, year = {2023}, publisher = {Dynopii}, journal = {HuggingFace repository}, howpublished = {url{https://huggingface.co/datasets/dynopii/OpenOrca-Top5percent}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作