ocr_annual_financials
收藏📋 TiniX Vietnam OCR Annual Financial Statements (2015–2025)
📌 概述
- 名称: TiniX Vietnam OCR Annual Financial Statements
- 语言: 越南语 (vi)
- 许可证: CC BY-NC 4.0 (Creative Commons Attribution Non-Commercial 4.0 International)
- 任务类别: 文档问答 (document-question-answering)、文本生成 (text-generation)
- 数据规模: 10,000 < n < 100,000 条记录
🧩 数据描述
该数据集包含从 2015 年至 2025 年越南上市企业年度财务报表中提取的 OCR 文本内容,由 TiniX AI 收集和处理。
- 总报告数: 18,231 份越南语报告
- 股票代码数: 1,491 个不同股票代码
- 报告类型包括:
- 合并财务报表
- 母公司财务报表
- 年度审计报告
- 财务报表附注
- 相关附录和表格
- OCR 精度: 对数字和表格数据的准确率达到 95%
- 数据格式: TXT 文本文件,保留原始文本结构
📊 数据集统计
| 类别 | 数值 |
|---|---|
| 总报告数 | 18,231 |
| 股票代码 | 1,491 |
| 时间范围 | 2015–2025 |
| 语言 | 越南语 |
| 数据格式 | TXT |
| 领域 | 财务报表 |
报告类型分布(按行业类别):
- Bank: 商业银行(例如:VCB, BID, ACB, TCB, MBB...)
- Securities: 证券公司(例如:SSI, VND, HCM, VCI, AAS, ABW...)
- Insurance: 保险公司(例如:BVH, PVI, BMI, BIC, ABI...)
- Corporate: 其他行业的股份制公司(占绝大多数)
📂 数据集结构
数据按层级目录组织:股票代码 → 年份 → 报告名称,每个报告保存为一个独立的 TXT 文件。 text ocr_annual_financials/ ├── A32/ │ ├── 2018/ │ │ ├── A32_Baocaotaichinh_2018_Kiemtoan/ │ │ │ └── A32_Baocaotaichinh_2018_Kiemtoan_extracted.txt │ │ └── ... │ └── ... ├── FPT/ ├── HPG/ ├── HTG/ └── ...
示例路径: HTG/2022/HTG_Baocaotaichinh_2022_Kiemtoan_Hopnhat/HTG_Baocaotaichinh_2022_Kiemtoan_Hopnhat_extracted.txt
💡 潜在用途
- OCR 基准测试: 在越南语多页金融文档上进行 OCR 质量评估与测试。
- 金融视觉语言模型 (VLM): 训练和微调用于金融文档理解的 VLM 模型。
- 越南语金融 NLP: 构建企业金融领域的越南语 NLP 模型。
- 检索增强生成 (RAG): 服务于财务报表的检索与问答系统。
- 金融信息提取: 从报告中提取财务指标、企业实体和表格数据。
- 大语言模型预训练: 用作越南语金融文本预训练或指令微调的数据源。
⚡ 快速使用
python from pathlib import Path
root = Path("/path/to/ocr_annual_financials")
for txt_file in root.rglob("*.txt"): text = txt_file.read_text(encoding="utf-8", errors="ignore") print(text[:500])
🧹 数据处理过程
- 标准化目录结构
- 剔除无效数据
- 移除英文文档
- 剔除过短或存在严重 OCR 错误的报告
- 标准化输出文本格式
📖 注意事项
- 数据集仅包含 OCR 文本内容
- 数据按层级组织,便于大规模检索与处理
- 部分报告可能因原始文档质量而包含 OCR 噪声
📄 许可证
该数据集采用 Creative Commons Attribution Non-Commercial 4.0 International (CC BY-NC 4.0) 许可证发布。
🤝 引用
bibtex @dataset{tinix_ocr_annual_financials, author = {TiniX AI}, title = {TiniX Vietnam OCR Annual Financial Statements (2015--2025)}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/tinixai/ocr_annual_financials} }




