First and Last Names Dataset|名字数据数据集|数据验证数据集
收藏数据集概述
数据集名称
- First and Last Names Dataset
数据集内容
- 包含约160,000个不同的名字和约100,000个不同的姓氏。
数据集可靠性
- 该数据集强调精确性,适用于基于用户提交的名字进行验证。在文本中寻找名字实体时,可能会出现较多的误报。
数据集来源
- 数据集从多个网站和资源中收集,包括但不限于:
- http://listofrandomnames.com/index.cfm?generated
- https://www.sajari.com/public-data
- http://www.20000-names.com/
- https://catalogue.data.gov.bc.ca/dataset/most-popular-boys-names-for-the-past-100-years
- https://catalogue.data.gov.bc.ca/dataset/most-popular-girl-names-for-the-past-100-years
- https://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/full-lists-of-babies-first-names-2010-to-2014
- https://gender-api.com/en/pricing
- https://github.com/OpenGenderTracking/globalnamedata/tree/master/assets
- https://github.com/MatthiasWinkelmann/firstname-database
- http://www.namepedia.org/en/firstname/Nabil/
- https://datasets.imdbws.com/
- https://www.imdb.com/interfaces/
- https://opendata.stackexchange.com/questions/46/multinational-list-of-popular-first-names-and-surnames
- ftp://ftp.heise.de/pub/ct/listings/0717-182.zip
- https://data.world/howarder/gender-by-name
- https://statbel.fgov.be/en/open-data/first-names-total-population-municipality
- https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/bulletins/babynamesenglandandwales/previousReleases
- http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/names/
- https://www.ssa.gov/oact/babynames/limits.html
- https://www.ssa.gov/OACT/babynames/
- https://www.ssa.gov/cgi-bin/popularnames.cgi
- https://github.com/hadley/data-baby-names/blob/master/baby-names.csv
- http://www.quietaffiliate.com/free-first-name-and-last-name-databases-csv-and-sql/
- https://stackoverflow.com/questions/1452003/plain-computer-parseable-lists-of-common-first-names
- http://mbejda.github.io/
- https://www2.census.gov/topics/genealogy/1990surnames/dist.all.last
- https://opendata.stackexchange.com/questions/1108/database-of-names-of-japanese-and-non-japanese-people
- https://opendata.stackexchange.com/questions/12234/name-and-gender-dataset
- https://opendata.stackexchange.com/questions/7071/people-names-by-country
- http://www.randomnames.com/all-boys-names.asp
- https://en.wikipedia.org/wiki/List_of_most_popular_given_names#cite_note-ahram2004-2
- http://www.avss.ucsb.edu/NameFema.HTM
- http://www.oxfordreference.com/view/10.1093/acref/9780198610601.001.0001/acref-9780198610601?btog=chap&hide=true&page=248&pageSize=10&skipEditions=true&sort=titlesort&source=%2F10.1093%2Facref%2F9780198610601.001.0001%2Facref-9780198610601
- https://github.com/dominictarr/random-name/blob/master/first-names.txt
- https://github.com/smashew/NameDatabases/tree/master/NamesDatabases/first%20names
- https://www.behindthename.com/names
- https://incompetech.com/named/multi.pl
安装与使用
- 安装命令:
pip install names-dataset
- 使用示例: python from names_dataset import NameDataset m = NameDataset() m.search_first_name(Mikael) m.search_last_name(Remy)

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。
arXiv 收录