election-69-OCR-result
收藏数据集概述
数据集基本信息
- 数据集名称: election-69-OCR-result
- 数据来源: 泰国选举委员会(กกต.)官方发布的2026年泰国大选结果PDF文件(表格 สส.6/1)
- 数据内容: 通过OCR技术从官方PDF扫描件中提取并结构化的大选结果数据,格式为机器可读的JSON和CSV
- 数据覆盖: 处理了来自泰国选举委员会的776份PDF扫描文件,生成794个匹配文件(397个选区文件 + 397个政党名单文件)
- 数据状态: 覆盖400个选区中的397个(99.25%),仍有3个选区数据缺失
数据内容与结构
数据文件组织
data/ ├── csv/ # 汇总CSV文件,可使用Excel/Google Sheets打开 │ ├── constituency.csv # 选区制结果,所有候选人(3,458行) │ ├── party_list.csv # 政党名单制结果,所有政党(22,635行) │ └── summary_winners.csv # 选区制获胜者摘要(397行) ├── matched/ # 通过验证并与候选人数据库匹配的JSON文件 │ ├── constituency/ # 选区制结果(397个文件) │ ├── party_list/ # 政党名单制结果(397个文件) │ ├── issues.json # 处理过程中发现的问题列表 │ └── validation_report.json # 验证结果摘要 └── ocr-output/ # OCR原始输出JSON文件 ├── constituency/ # 选区制原始结果(397个文件) └── party_list/ # 政党名单制原始结果(397个文件)
关键数据文件说明
-
constituency.csv
- 描述:选区制投票结果,包含所有候选人信息
- 列:省份代码、省份、选区、编号、候选人姓名、政党、得票数
-
party_list.csv
- 描述:政党名单制投票结果,包含所有政党信息
- 列:省份代码、省份、选区、编号、政党、得票数
-
summary_winners.csv
- 描述:选区制获胜者摘要
- 列:省份代码、省份、选区、获胜者、政党、得票数、有效票数、合格选民数、投票选民数
数据质量与处理
数据质量保证措施
- 候选人编号修正:修正了194个选区中616处OCR读取错误的候选人编号,通过
candidate_uuid从数据库查找正确编号,准确率达到100% - 政党编号修正:修正了94个选区中3,184处OCR读取错误的政党编号,通过
party_uuid从数据库查找正确编号,准确率达到100% - 政党名单得票数修正:修正了15个选区中政党名单的得票数总和(vote sum)不匹配问题,使不匹配数降为0
- 重复候选人处理:修正了45个选区中OCR产生的重复候选人编号问题,重复数降为0
- 重新OCR处理:对54个得票数仍不匹配的选区文件使用两种AI模型重新进行OCR处理,使不匹配选区从54个减少到7个
- 幻影条目清理:检测并删除了OCR产生的幻影重复政党条目
数据质量统计
- 选区制数据:
- 得票总和匹配选区:384/397(96.7%)
- 重复候选人:0
- 政党名单制数据:
- 得票总和匹配选区:341/397(85.9%)
- 政党编号错误:0
已知剩余问题
- 13个选区的选区制数据得票总和仍不匹配(dd≠0)
- 56个选区的政党名单制数据得票总和仍不匹配(dd≠0)
- 35个未匹配的政党条目:幻影/空白条目(0票),不影响总票数
- 2个未匹配的候选人:已被取消资格/姓名与数据库不匹配
数据覆盖范围
最终结果关键数字
- 选区制总票数:34,579,802票
- 政党名单制总票数:34,758,153票
- 合格选民数(选区制):52,524,541人
- 合格选民数(政党名单制):52,579,202人
政党名单制前五名
- ประชาชน:10,861,542票
- ภูมิใจไทย:6,396,439票
- เพื่อไทย:5,482,572票
- ประชาธิปัตย์:3,861,415票
- เศรษฐกิจ:1,129,354票
缺失选区
- 选区制缺失3个选区:
- 曼谷(กรุงเทพมหานคร)第15选区
- 巴真府(ปราจีนบุรี)第2选区
- 难府(น่าน)第1选区(仅有政党名单数据)
- 政党名单制缺失3个选区:
- 曼谷(กรุงเทพมหานคร)第15选区
- 巴真府(ปราจีนบุรี)第2选区
- 乌隆府(อุดรธานี)第6选区(仅有选区制数据)
处理流程
- 数据源:776份泰国选举委员会的PDF扫描文件(无文本层)
- OCR处理:主要使用AI视觉OCR,并与其他OCR引擎和LLM进行交叉验证
- 验证与匹配:检查票数总和,匹配省份代码和候选人/政党UUID,与Reporter数据库和election_parties对比
- OCR错误修正:修正候选人编号、政党编号、政党名单得票数、重复候选人编号等问题
- 重新OCR:对问题文件使用两种AI模型重新处理
- 数据清理:删除OCR产生的幻影重复条目,删除泰国选举委员会上传错误的文件
- 数据输出:生成JSON(原始文件794个 + 匹配文件794个)和CSV文件
重要声明
- 本数据集通过OCR处理生成,使用了多种AI视觉模型、OCR引擎和LLM进行多模型交叉验证以确保准确性
- 数据提供者未以任何方式更改、修改或操纵任何选举数据
- 这是一个独立的志愿者公民努力,旨在帮助数字化泰国选举委员会发布的官方选举结果
- 所有处理费用由作者个人承担,该项目与任何企业、政党或公民组织无关
- 如需官方权威结果,请始终参考泰国选举委员会的原始文件
使用要求
- 署名要求:使用本数据集时,请署名ชานนท์ เงินทองดี (Chanon Ngernthongdee) 或链接回本仓库:https://github.com/killernay/election-69-OCR-result
- 错误报告:发现数据不准确之处,可通过Twitter/X报告:https://x.com/killernay
时间线
- 2026年2月8日:泰国大选日
- 2026年2月20日:泰国选举委员会100%正式公布计票结果PDF文件(776个文件,除3个选区外)
- 2026年2月20-25日:OCR处理、数据验证、错误修正和数据发布过程
许可证
- 本数据衍生自公开的官方政府文件
- 结构化JSON输出免费供公众使用
- 使用时请按上述要求署名



