country-codes|国家代码数据集|国际标准数据集
收藏数据集概述
数据内容
- 包含全面的国别代码信息,包括ISO 3166代码、ITU拨号代码、ISO 4217货币代码等。
- 数据来源多样,包括:
- 官方正式和简称(英语、法语、西班牙语、阿拉伯语、中文、俄语)来自联合国礼宾和联络服务。
- 习惯性英语简称来自Unicode CLDR项目。
- ISO 3166官方简称(多种语言)来自联合国经济社会事务统计部。
- ISO 4217货币代码来自currency-iso.org。
- 其他多种国别代码来自statoids.com。
- 首都、语言、大洲、顶级域名和geonameid来自geonames.org。
- EDGAR代码来自sec.gov。
数据格式
- 提供为Tabular Data Package,可通过链接查看数据包详情。
数据准备
- 包含Python脚本用于从多个数据源获取当前国家信息,并输出合并的国别代码信息CSV文件。
- 使用csvkit工具的
in2csv
和csvcut
进行CSV输出。
许可证
- 数据集维护者授权为公共领域许可。
- 需注意,数据最终来源于ISO及其他标准机构,其权利和许可政策可能不明确。ISO声明其国别代码列表可免费用于内部使用和非商业目的。
- 如用于公共或商业产品,请检查原始来源的具体限制。

ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
World Flights
该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。
github 收录
中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)
中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。
地球大数据科学工程 收录