five

OpenOrca-Chinese

收藏
魔搭社区2026-01-06 更新2024-06-01 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/OpenOrca-Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
<p><h1>🐋 OpenOrca-Chinese 数据集!🐋</h1></p> 感谢 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集的发布,给广大NLP研究人员和开发者带来了宝贵的资源! 这是一个对 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集中文翻译的版本,翻译引擎为 Google 翻译,希望能给中文 LLM 研究做出一点点贡献。 <br/> # Dataset Summary The OpenOrca dataset is a collection of augmented [FLAN Collection data](https://arxiv.org/abs/2301.13688). Currently ~1M GPT-4 completions, and ~3.2M GPT-3.5 completions. It is tabularized in alignment with the distributions presented in the ORCA paper and currently represents a partial completion of the full intended dataset, with ongoing generation to expand its scope. The data is primarily used for training and evaluation in the field of natural language processing. <a name="dataset-structure"></a> # Dataset Structure <a name="data-instances"></a> ## Data Instances A data instance in this dataset represents entries from the FLAN collection which have been augmented by submitting the listed question to either GPT-4 or GPT-3.5. The response is then entered into the response field. <a name="data-fields"></a> ## Data Fields The fields are: 1) 'id', a unique numbered identifier which includes one of 'niv', 't0', 'cot', or 'flan' to represent which source FLAN Collection submix the 'question' is sourced from. 2) 'system_prompt', representing the System Prompt presented to the GPT-3.5 or GPT-4 API for the datapoint 3) 'question', representing a question entry as provided by the FLAN Collection 4) 'response', a response to that question received from a query to either GPT-3.5 or GPT-4.

<p><h1>🐋 OpenOrca-Chinese 数据集!🐋</h1></p> 感谢 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集的发布,为广大自然语言处理(Natural Language Processing,NLP)研究人员与开发者提供了宝贵的研究资源! 本项目为 [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) 数据集的中文翻译版本,翻译引擎采用 Google 翻译,期望能为中文大语言模型(Large Language Model,LLM)研究贡献绵薄之力。 <br/> # 数据集概览 OpenOrca 数据集是经过增强处理的 [FLAN 合集数据(FLAN Collection data)](https://arxiv.org/abs/2301.13688) 的集合。目前包含约100万条GPT-4生成结果与约320万条GPT-3.5生成结果。该数据集已按照 ORCA 论文中提出的分布形式进行了表格化处理,当前仅完成了完整预期数据集的一部分,后续将持续生成数据以扩展其覆盖范围。本数据集主要用于自然语言处理领域的模型训练与评估工作。 <a name="dataset-structure"></a> # 数据集结构 <a name="data-instances"></a> ## 数据实例 本数据集的每条数据实例均源自 FLAN 合集条目,通过将其中列出的问题提交至 GPT-4 或 GPT-3.5 进行增强处理后,将得到的回复填入响应字段中。 <a name="data-fields"></a> ## 数据字段 数据字段说明如下: 1. `id`:唯一数字标识符,其标识中包含`niv`、`t0`、`cot`或`flan`其中之一,用于表明该数据对应的`question`源自 FLAN 合集的哪个子混合数据集。 2. `system_prompt`:该数据点提交至 GPT-3.5 或 GPT-4 API 时所使用的系统提示词。 3. `question`:FLAN 合集提供的原始问题条目。 4. `response`:通过调用 GPT-3.5 或 GPT-4 API 获得的对应问题的回复结果。
提供机构:
maas
创建时间:
2024-05-09
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作