five

Free Global Ticker Database

收藏
github2026-04-23 更新2026-04-02 收录
下载链接:
https://github.com/adanos-software/free-ticker-database
下载链接
链接失效反馈
官方服务:
资源简介:
免费的全球股票和ETF代码参考数据库,包含主要代码、上市地点行、别名、ISIN/WKN标识符、交叉上市和覆盖报告。

A free global stock and ETF code reference database that comprises primary codes, listing locations, aliases, ISIN/WKN identifiers, cross-listings, and covered research reports.
创建时间:
2026-03-31
原始信息汇总

Free Global Ticker Database 数据集概述

数据集简介

这是一个全面的、可免费使用的全球股票和ETF代码参考数据库,覆盖67个交易所和68个国家的超过59,000种证券。

核心统计信息

  • 总代码数量:59,178
  • 股票数量:43,086
  • ETF数量:16,092
  • 交易所数量:67
  • 国家数量:68
  • ISIN覆盖数量:44,839 (75.8%)
  • 行业覆盖数量:38,900 (65.7%)
  • 总别名数量:104,532

数据文件与格式

数据集提供多种格式以适应不同用例:

文件 大小 最佳适用场景
data/tickers.csv 5.4 MB Excel、电子表格、快速查询
data/tickers.json 11.8 MB Web应用程序、API
data/tickers.parquet 2.6 MB Pandas、数据科学
data/tickers.db 18.7 MB SQL查询、本地应用程序
data/aliases.csv 2.7 MB 别名/名称解析
data/identifiers.csv 1.0 MB ISIN/WKN查找
data/cross_listings.csv 0.3 MB 交叉上市证券

文件内容说明

  • tickers.csv:扁平结构,包含tickernameexchangeasset_typesectorcountrycountry_codeisinaliases列。别名以管道符(|)分隔。
  • aliases.csv:每行一个别名,包含tickeraliasalias_type列。别名类型包括isinwknnameexchange_ticker
  • identifiers.csv:用于ISIN和WKN查找,包含tickerisinwkn列。
  • cross_listings.csv:记录多交易所证券,包含isintickerexchangeis_primary列。is_primary标志表示基于ISIN国家前缀和交易所排名的主交易所上市。
  • tickers.json:采用信封结构,包含_meta块和tickers数组。
  • tickers.db:SQLite数据库,包含tickers(59,184行)、aliases(104,968行)、cross_listings(10,193行)表,并在aliasexchangecountrysectorisin列上建立索引。

数据模式

tickers表

列名 类型 描述
ticker string 主要代码符号(最多10个字符)
name string 公司/基金名称(最多200个字符)
exchange string 交易所(NYSE、NASDAQ、LSE、HKEX等)
asset_type string StockETF
sector string GICS行业(例如Information Technology)
country string 注册国家
country_code string ISO 3166-1 alpha-2代码(例如US、DE、GB)
isin string 国际证券识别编码

aliases表

列名 类型 描述
ticker string 指向tickers表的外键
alias string 替代名称、标识符或关键词
alias_type string isinwknnameexchange_ticker

交易所覆盖情况

交易所 代码数量 描述
OTC 10,596 美国场外交易/粉单市场
LSE 6,409 伦敦证券交易所
NASDAQ 4,821 NASDAQ
SZSE 3,096 深圳证券交易所
XETRA 2,948 德意志交易所
SSE 2,811 上海证券交易所
NYSE 2,620 纽约证券交易所
NYSE ARCA 2,619 NYSE ARCA(ETF)
KRX 2,282 韩国交易所
TSX 1,766 多伦多证券交易所
B3 1,773 圣保罗交易所
TWSE 1,245 台湾证券交易所
ASX 1,235 澳大利亚证券交易所
KOSDAQ 1,140 韩国场外交易市场
TPEX 1,126 台北交易所
+ 52 more ...

数据质量保证

  • 零重复代码
  • 移除完全重复的别名行
  • 保守过滤明显的常见词、包装器、名人和产品别名
  • 移除非常短(1-2字符)和纯数字的名称别名以减少歧义
  • 零垃圾别名(“Not Available”、“N/A”等)
  • 所有字段长度均在数据库约束范围内
  • 从股票宇宙中过滤掉权证、单位、认股权证、票据和优先/存托凭证
  • 为外国OTC行应用基于ISIN的国家修正
  • 行业名称规范化为标准GICS行业(股票)和标准化ETF类别
  • 通过Luhn算法验证ISIN校验位;移除无效ISIN

数据来源

  • FinanceDatabase(https://github.com/JerBouma/FinanceDatabase):行业分类、WKN、附加ISIN
  • 生产数据来自api.adanos.org(https://api.adanos.org):精选别名、公司名称变体

许可证

MIT许可证。

贡献

欢迎提交问题和拉取请求。

搜集汇总
数据集介绍
main_image_url
构建方式
在金融数据整合领域,构建一个全面且准确的全球证券代码数据库是一项复杂而精细的任务。Free Global Ticker Database 的构建过程融合了多源数据集成与严格的质量控制流程。其核心数据来源于 FinanceDatabase 等开源项目,用于获取行业分类、国际证券识别码等关键信息,同时整合了来自生产环境的经过人工审核的别名与公司名称变体。数据集通过自动化脚本进行重建与合并,并引入了一个基于大型语言模型的审计队列系统,对可疑条目进行评分并生成人工或AI辅助的审查任务,最终通过保守的覆写文件来修正高置信度的决策,确保了数据的一致性与准确性。
特点
该数据集以其广泛的覆盖范围和精细的数据结构而著称,涵盖了全球67个交易所超过59,000只股票与ETF,涉及68个国家。其显著特点在于提供了多种数据格式以适应不同的应用场景,包括便于电子表格操作的CSV文件、适合Web应用与API的JSON格式、为数据科学优化的Parquet文件以及支持SQL查询的SQLite数据库。此外,数据集通过独立的别名表、标识符表和交叉上市表,实现了对证券多维度信息的有效关联与查询,并严格过滤了权证、优先股等非普通股证券,确保了数据集的纯净性与实用性。
使用方法
针对不同的技术栈与应用需求,该数据集提供了灵活的使用途径。对于数据分析师与研究人员,可直接加载Parquet或CSV文件至Pandas等工具进行快速分析与筛选;开发人员则可利用JSON格式轻松集成到Web应用程序或后端API中,实现证券信息的实时查询。若需要进行复杂的多表关联查询,如通过别名查找公司或识别跨市场上市的证券,使用内建索引的SQLite数据库将提供极高的查询效率。数据集还附带详细的审计与审查脚本,支持用户根据自身质量要求对数据进行复核与更新,体现了其面向生产环境的工程友好性。
背景与挑战
背景概述
在金融科技与量化研究领域,全球证券标识符的标准化与可访问性一直是数据基础设施的核心议题。Free Global Ticker Database 作为一个综合性、免费开放的股票与ETF代码参考数据库,由开源社区主导构建,旨在为研究人员、开发者及金融从业者提供覆盖广泛的证券元数据。该数据集收录了超过59,000种证券,横跨67个交易所与68个国家,其核心研究问题聚焦于解决全球金融市场中证券标识符的碎片化与不一致性,通过整合ISIN、别名及交叉上市信息,为金融数据应用、资产定价模型及投资组合分析提供了统一且可靠的数据基础。自创建以来,该数据集持续演进,其结构化设计与多格式支持显著降低了金融数据获取与处理的门槛,对推动开放金融数据生态的发展产生了积极影响。
当前挑战
该数据集致力于解决金融数据领域中证券标识符映射与解析的复杂性挑战,其核心问题在于如何准确、高效地将多样化的市场代码、别名及国际标准标识符进行关联与统一。在构建过程中,面临多重技术与管理挑战:首先,数据源的异构性与不一致性要求进行精细的清洗与验证,例如确保ISIN编码符合Luhn算法并修正国家代码;其次,别名过滤需在覆盖广度与语义准确性之间取得平衡,避免纳入通用词汇或歧义缩写;此外,跨市场证券的识别与主次交易所标记依赖于复杂的规则与排名逻辑,增加了数据一致性的维护难度。这些挑战共同构成了数据集质量保障的核心环节,需要通过持续的审计与人工复核流程加以应对。
常用场景
经典使用场景
在全球金融市场研究中,数据整合与标准化是基础性挑战。Free Global Ticker Database 以其覆盖 67 个交易所、68 个国家超过 59,000 种证券的广度,为学术与行业分析提供了统一的证券标识映射框架。其经典应用场景在于构建全球资产定价模型,研究者通过该数据集可高效地将来自不同数据源的异构证券代码(如 ISIN、WKN、本地代码)映射至统一的主代码,从而无缝整合价格、财务与宏观经济数据,支撑跨国、跨市场的资产收益率分析与风险因子检验。
衍生相关工作
围绕该数据集,已衍生出多个服务于特定研究需求的数据增强与工具开发工作。例如,基于其核心的证券映射关系,研究者可以进一步构建全球行业分类(GICS)一致的因子暴露数据库,或开发专注于新兴市场证券标识解析的专项子集。在工具层面,已有工作利用其结构化数据,开发了用于金融自然语言处理(NLP)的实体链接器,能够将新闻文本、财报中的公司提及准确关联至标准证券代码。这些衍生工作共同扩展了原始数据集在学术与工业界的生态影响力。
数据集最近研究
最新研究方向
在全球金融市场数据整合领域,Free Global Ticker Database凭借其覆盖67个交易所、近六万种证券的广泛性,正成为量化金融与资产定价研究的重要基础设施。前沿研究聚焦于利用其多格式、高结构化的数据支持,结合大语言模型进行自动化数据质量审计与纠错,通过Claude或Gemini等AI工具构建智能审查流程,显著提升了金融标识符映射的准确性与时效性。这一方向紧密关联金融科技中数据治理自动化的热点,为跨境资产识别、多市场风险建模提供了可靠、可扩展的基准,推动了全球证券数据标准化与开源生态的协同发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作