five

guannanjiayou/china-rd-expenditure-categorization-dataset

收藏
Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/guannanjiayou/china-rd-expenditure-categorization-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - zh license: mit pretty_name: China R&D Expenditure Categorization (Chinese) tags: - finance - classification - information-extraction - instruction task_categories: - text-classification --- ## Summary 本数据集用于 **企业所得税研发费用** 凭证文本的预分类/归集建议任务:给定费用凭证的简要信息(科目/摘要/部门/金额/收款方等),输出结构化预分析结果,供下游规则引擎与人工复核使用。 当前仓库包含两份 JSONL: - **`data/train_samples.jsonl`**:人工/示例样本(相对少量) - **`data/train_generated.jsonl`**:模型生成的扩充样本(相对多量),每条带 `generated: true` ## Data format 每行是一个 JSON 对象,核心字段如下: - **`messages`**:对话格式(system/user/assistant) - `system`:任务说明与输出字段规范 - `user`:一条费用凭证的文本化输入 - `assistant`:**只输出合法 JSON 字符串**(结构化预分类结果) - **`category`**:该样本的归集科目标签(用于训练/评估的外部标签) - **`difficulty`**:难度(简单/中等/困难) - **`generated`**:是否为生成数据(仅在生成集里出现,布尔) - **`scenario`**:场景标签(仅在生成集里出现,字符串) ### Assistant JSON schema (inside `messages[].content`) `assistant` 的 `content` 是一个 JSON 字符串,字段约定: - **`nature`**:费用性质(人工费|材料费|设备折旧|无形资产摊销|服务费|其他) - **`activity`**:活动类型(研发|非研发|混合|不明) - **`category`**:建议归集科目(人员人工|直接投入|折旧摊销|无形资产摊销|设计装备调试|委托境内|委托境外|其他相关|不得归集|待判断) - **`confidence`**:置信度(高|中|低) - **`flags`**:需关注事项列表(字符串数组) ## Recommended label set `category`(外部标签)常见取值包括: - 人员人工、直接投入、折旧摊销、无形资产摊销、设计装备调试、委托境内、委托境外、其他相关、不得归集、待判断 ## License MIT License(见 `LICENSE`)。
提供机构:
guannanjiayou
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作