five

dataforge-economics

收藏
魔搭社区2026-01-02 更新2025-12-27 收录
下载链接:
https://modelscope.cn/datasets/teknium/dataforge-economics
下载链接
链接失效反馈
官方服务:
资源简介:
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6317aade83d8d2fd903192d9/YmaINbgYmLpgTGR6ESXji.png) # Dataset Card for dataforge-economics ## Table of Contents - [Overview](#overview) - [Dataset Description](#dataset-description) - [Data Collection and Synthesis](#data-collection-and-synthesis) - [Data Structure](#data-structure) - [Licensing, Privacy, and Ethics](#licensing-privacy-and-ethics) - [Access](#access) - [Usage](#usage) - [Citation](#citation) - [Contributions](#contributions) ## Overview This dataset, `teknium/dataforge-economics`, is a specialized collection of 1,000 synthetic examples in the field of economics. It has been generated using OpenAI's GPT-4 and a custom data synthesis pipeline named DataForge, developed by me. ## Dataset Description ### Data Collection and Synthesis The data in `teknium/dataforge-economics` has been synthetically generated using OpenAI's GPT-4 language model. The synthesis process was enhanced and structured using the DataForge pipeline, which incorporates domain-specific knowledge and ensures relevance in economics topics. ### Data Structure - **Size of dataset:** 1000 examples - **Type of data:** Textual (Economics domain-specific) - **Data format:** JSON - **Fields:** - - id: a randomly generated uuid - conversations: single turn human & gpt turns in sharegpt format - source: the dataset name itself, for metadata purposes when merging with others - topic: the sub-topic for the domain - system_prompt: type of system prompt used for generating the response. ## Licensing, Privacy, and Ethics - **License:** MIT License - **Special Considerations:** This datasest is purely generated from GPT-4 data, some information may be incorrect or invalid. - **Privacy:** As the dataset is synthetically generated, it does not contain any real individual's data. ## Access - **Availability:** General Access ## Usage This dataset is a domain specialist dataset, the first to use my new pipeline called Data Forge, which can create domain expert knowledge (and tasks, as seen in the Trismegistus occult dataset) This dataset was a proof of concept to improve upon Orca model's economics expertise, which surpassed my custom benchmark for economics when finetuned over stable beluga.

# dataforge-economics 数据集卡片 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6317aade83d8d2fd903192d9/YmaINbgYmLpgTGR6ESXji.png) ## 目录 - [概览](#overview) - [数据集说明](#dataset-description) - [数据收集与合成](#data-collection-and-synthesis) - [数据结构](#data-structure) - [许可、隐私与伦理](#licensing-privacy-and-ethics) - [获取方式](#access) - [使用场景](#usage) - [引用方式](#citation) - [贡献说明](#contributions) ## 概览 本数据集`teknium/dataforge-economics`是一个专注于经济学领域的专属数据集,包含1000条合成样本。其生成过程依托OpenAI的GPT-4大语言模型(Large Language Model),并通过作者自研的自定义数据合成流水线DataForge完成。 ## 数据集说明 ### 数据收集与合成 `teknium/dataforge-economics`的所有数据均通过OpenAI的GPT-4大语言模型合成生成。合成流程依托DataForge流水线进行优化与结构化处理,该流水线整合了经济学领域的专业知识,确保生成内容贴合经济学主题。 ### 数据结构 - **数据集规模:** 1000条样本 - **数据类型:** 文本数据(经济学领域专属) - **数据格式:** JSON - **字段说明:** - id:随机生成的通用唯一识别码(Universally Unique Identifier, UUID) - conversations:采用ShareGPT格式的单轮人类与GPT交互对话 - source:数据集名称本身,用于与其他数据集合并时的元数据标注 - topic:该样本所属的经济学细分主题 - system_prompt:生成回复时所使用的系统提示词类型 ## 许可、隐私与伦理 - **许可协议:** MIT许可证 - **特殊说明:** 本数据集完全由GPT-4生成,部分信息可能存在错误或无效内容 - **隐私说明:** 由于本数据集为合成生成,未包含任何真实自然人的相关数据。 ## 获取方式 - **权限状态:** 公开可获取 ## 使用场景 本数据集属于经济学领域的专业数据集,也是首个使用作者自研DataForge流水线的数据集——该流水线可生成领域级专业知识与对应任务(如Trismegistus神秘学数据集所示范的那样)。本数据集作为概念验证,旨在提升Orca模型的经济学专业能力;在基于Stable Beluga进行微调后,其经济学表现超越了作者自定义的经济学基准测试指标。 ## 引用方式 ## 贡献说明
提供机构:
maas
创建时间:
2025-11-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作