five

yys/OpenOrca-Chinese

收藏
Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yys/OpenOrca-Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - conversational - text-classification - token-classification - table-question-answering - question-answering - zero-shot-classification - summarization - feature-extraction - text-generation - text2text-generation language: - zh pretty_name: OpenOrca-Chinese size_categories: - 10M<n<100M --- <p><h1>🐋 OpenOrca-Chinese 数据集!🐋</h1></p> 感谢 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集的发布,给广大NLP研究人员和开发者带来了宝贵的资源! 这是一个对 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集中文翻译的版本,翻译引擎为 Google 翻译,希望能给中文 LLM 研究做出一点点贡献。 <br/> # Dataset Summary The OpenOrca dataset is a collection of augmented [FLAN Collection data](https://arxiv.org/abs/2301.13688). Currently ~1M GPT-4 completions, and ~3.2M GPT-3.5 completions. It is tabularized in alignment with the distributions presented in the ORCA paper and currently represents a partial completion of the full intended dataset, with ongoing generation to expand its scope. The data is primarily used for training and evaluation in the field of natural language processing. <a name="dataset-structure"></a> # Dataset Structure <a name="data-instances"></a> ## Data Instances A data instance in this dataset represents entries from the FLAN collection which have been augmented by submitting the listed question to either GPT-4 or GPT-3.5. The response is then entered into the response field. <a name="data-fields"></a> ## Data Fields The fields are: 1) 'id', a unique numbered identifier which includes one of 'niv', 't0', 'cot', or 'flan' to represent which source FLAN Collection submix the 'question' is sourced from. 2) 'system_prompt', representing the System Prompt presented to the GPT-3.5 or GPT-4 API for the datapoint 3) 'question', representing a question entry as provided by the FLAN Collection 4) 'response', a response to that question received from a query to either GPT-3.5 or GPT-4.
提供机构:
yys
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 对话
    • 文本分类
    • 令牌分类
    • 表格问答
    • 问答
    • 零样本分类
    • 摘要
    • 特征提取
    • 文本生成
    • 文本到文本生成
  • 语言: 中文
  • 大小类别: 10M<n<100M

数据集描述

  • 名称: OpenOrca-Chinese
  • 来源: 基于 Open-Orca/OpenOrca 数据集的中文翻译版本
  • 翻译引擎: Google 翻译
  • 原始数据: 来自 FLAN Collection 数据的增强集合
  • 当前数据量: 约1M GPT-4完成,约3.2M GPT-3.5完成
  • 数据用途: 主要用于自然语言处理领域的训练和评估

数据集结构

数据实例

  • 描述: 每个数据实例代表来自FLAN集合的条目,通过向GPT-4或GPT-3.5提交列出的问题进行增强,并将响应输入到响应字段中。

数据字段

  • id: 唯一编号标识符,包括niv, t0, cot, 或 flan之一,表示问题来源的FLAN集合子混合。
  • system_prompt: 向GPT-3.5或GPT-4 API呈现的系统提示。
  • question: 来自FLAN集合的问题条目。
  • response: 通过查询GPT-3.5或GPT-4收到的对该问题的响应。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作