dynopii/OpenOrca-Top5percent
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/dynopii/OpenOrca-Top5percent
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca-Top5Percent数据集是OpenOrca数据集的一个精炼版本,专注于高频词汇的使用。该数据集包含了OpenOrca数据集中使用频率最高的5%的词汇,旨在为各种NLP任务提供高频词汇的聚焦。数据集基于增强的FLAN Collection数据,特别关注了约1M GPT-4和约3.2M GPT-3.5的完成情况中的最常用词汇。数据集的结构与原始OpenOrca数据集一致,包括id、system_prompt、question和response等字段,适用于语言建模、文本生成、摘要等任务。数据集的主要语言是英语,适用于教育应用、简化文本生成等场景。
OpenOrca-Top5Percent数据集是OpenOrca数据集的一个精炼版本,专注于高频词汇的使用。该数据集包含了OpenOrca数据集中使用频率最高的5%的词汇,旨在为各种NLP任务提供高频词汇的聚焦。数据集基于增强的FLAN Collection数据,特别关注了约1M GPT-4和约3.2M GPT-3.5的完成情况中的最常用词汇。数据集的结构与原始OpenOrca数据集一致,包括id、system_prompt、question和response等字段,适用于语言建模、文本生成、摘要等任务。数据集的主要语言是英语,适用于教育应用、简化文本生成等场景。
提供机构:
dynopii
原始信息汇总
数据集概述
名称: OpenOrca-Top5Percent
描述: OpenOrca-Top5Percent 是一个精炼的数据集,包含原始 OpenOrca 数据集中使用频率最高的5%词汇的条目。该数据集旨在专注于高频词汇,适用于多种自然语言处理(NLP)任务。
语言: 英语
数据来源: 源自 OpenOrca 数据集,经过筛选,只包含使用频率最高的5%词汇的条目。
数据集结构
数据实例:
- 每个实例遵循原始 OpenOrca 数据集的结构,但仅包含使用频率最高的5%词汇的条目。
数据字段:
- 包括 id, system_prompt, question, response 等字段,与原始 OpenOrca 数据集保持一致。
数据分割:
- 数据集未进行分割,作为一个整体提供。
支持的任务
- 文本分类
- 令牌分类
- 表格问题回答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
使用场景
- 教育应用
- 简化文本生成
使用注意事项
- 用户应考虑数据集词汇范围缩小的影响,特别是在特定应用和研究中的使用。
引用信息
bibtex @misc{OpenOrca-Top5Percent, title = {OpenOrca-Top5Percent: A Filtered Subset of OpenOrca Focusing on High-Frequency Vocabulary}, author = {Anubhav Singh}, year = {2023}, publisher = {Dynopii}, journal = {HuggingFace repository}, howpublished = {url{https://huggingface.co/datasets/dynopii/OpenOrca-Top5percent}}, }



