guannanjiayou/china-rd-expenditure-categorization-dataset
收藏Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/guannanjiayou/china-rd-expenditure-categorization-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- zh
license: mit
pretty_name: China R&D Expenditure Categorization (Chinese)
tags:
- finance
- classification
- information-extraction
- instruction
task_categories:
- text-classification
---
## Summary
本数据集用于 **企业所得税研发费用** 凭证文本的预分类/归集建议任务:给定费用凭证的简要信息(科目/摘要/部门/金额/收款方等),输出结构化预分析结果,供下游规则引擎与人工复核使用。
当前仓库包含两份 JSONL:
- **`data/train_samples.jsonl`**:人工/示例样本(相对少量)
- **`data/train_generated.jsonl`**:模型生成的扩充样本(相对多量),每条带 `generated: true`
## Data format
每行是一个 JSON 对象,核心字段如下:
- **`messages`**:对话格式(system/user/assistant)
- `system`:任务说明与输出字段规范
- `user`:一条费用凭证的文本化输入
- `assistant`:**只输出合法 JSON 字符串**(结构化预分类结果)
- **`category`**:该样本的归集科目标签(用于训练/评估的外部标签)
- **`difficulty`**:难度(简单/中等/困难)
- **`generated`**:是否为生成数据(仅在生成集里出现,布尔)
- **`scenario`**:场景标签(仅在生成集里出现,字符串)
### Assistant JSON schema (inside `messages[].content`)
`assistant` 的 `content` 是一个 JSON 字符串,字段约定:
- **`nature`**:费用性质(人工费|材料费|设备折旧|无形资产摊销|服务费|其他)
- **`activity`**:活动类型(研发|非研发|混合|不明)
- **`category`**:建议归集科目(人员人工|直接投入|折旧摊销|无形资产摊销|设计装备调试|委托境内|委托境外|其他相关|不得归集|待判断)
- **`confidence`**:置信度(高|中|低)
- **`flags`**:需关注事项列表(字符串数组)
## Recommended label set
`category`(外部标签)常见取值包括:
- 人员人工、直接投入、折旧摊销、无形资产摊销、设计装备调试、委托境内、委托境外、其他相关、不得归集、待判断
## License
MIT License(见 `LICENSE`)。
提供机构:
guannanjiayou



