First and Last Names Dataset|名字数据数据集|数据验证数据集
收藏数据集概述
数据集名称
- First and Last Names Dataset
数据集内容
- 包含约160,000个不同的名字和约100,000个不同的姓氏。
数据集可靠性
- 该数据集强调精确性,适用于基于用户提交的名字进行验证。在文本中寻找名字实体时,可能会出现较多的误报。
数据集来源
- 数据集从多个网站和资源中收集,包括但不限于:
- http://listofrandomnames.com/index.cfm?generated
- https://www.sajari.com/public-data
- http://www.20000-names.com/
- https://catalogue.data.gov.bc.ca/dataset/most-popular-boys-names-for-the-past-100-years
- https://catalogue.data.gov.bc.ca/dataset/most-popular-girl-names-for-the-past-100-years
- https://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/full-lists-of-babies-first-names-2010-to-2014
- https://gender-api.com/en/pricing
- https://github.com/OpenGenderTracking/globalnamedata/tree/master/assets
- https://github.com/MatthiasWinkelmann/firstname-database
- http://www.namepedia.org/en/firstname/Nabil/
- https://datasets.imdbws.com/
- https://www.imdb.com/interfaces/
- https://opendata.stackexchange.com/questions/46/multinational-list-of-popular-first-names-and-surnames
- ftp://ftp.heise.de/pub/ct/listings/0717-182.zip
- https://data.world/howarder/gender-by-name
- https://statbel.fgov.be/en/open-data/first-names-total-population-municipality
- https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/bulletins/babynamesenglandandwales/previousReleases
- http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/names/
- https://www.ssa.gov/oact/babynames/limits.html
- https://www.ssa.gov/OACT/babynames/
- https://www.ssa.gov/cgi-bin/popularnames.cgi
- https://github.com/hadley/data-baby-names/blob/master/baby-names.csv
- http://www.quietaffiliate.com/free-first-name-and-last-name-databases-csv-and-sql/
- https://stackoverflow.com/questions/1452003/plain-computer-parseable-lists-of-common-first-names
- http://mbejda.github.io/
- https://www2.census.gov/topics/genealogy/1990surnames/dist.all.last
- https://opendata.stackexchange.com/questions/1108/database-of-names-of-japanese-and-non-japanese-people
- https://opendata.stackexchange.com/questions/12234/name-and-gender-dataset
- https://opendata.stackexchange.com/questions/7071/people-names-by-country
- http://www.randomnames.com/all-boys-names.asp
- https://en.wikipedia.org/wiki/List_of_most_popular_given_names#cite_note-ahram2004-2
- http://www.avss.ucsb.edu/NameFema.HTM
- http://www.oxfordreference.com/view/10.1093/acref/9780198610601.001.0001/acref-9780198610601?btog=chap&hide=true&page=248&pageSize=10&skipEditions=true&sort=titlesort&source=%2F10.1093%2Facref%2F9780198610601.001.0001%2Facref-9780198610601
- https://github.com/dominictarr/random-name/blob/master/first-names.txt
- https://github.com/smashew/NameDatabases/tree/master/NamesDatabases/first%20names
- https://www.behindthename.com/names
- https://incompetech.com/named/multi.pl
安装与使用
- 安装命令:
pip install names-dataset
- 使用示例: python from names_dataset import NameDataset m = NameDataset() m.search_first_name(Mikael) m.search_last_name(Remy)

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录
基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。
国家青藏高原科学数据中心 收录
TCGA (The Cancer Genome Atlas)
TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。
portal.gdc.cancer.gov 收录