five

First and Last Names Dataset|名字数据数据集|数据验证数据集

收藏
github2020-03-27 更新2024-05-31 收录
名字数据
数据验证
下载链接:
https://github.com/fighting41love/name-dataset
下载链接
链接失效反馈
资源简介:
一个包含约16万首名和10万姓氏的全球名字数据集,强调数据精度,适用于检查名字是否为名字实体。

本数据集囊括全球约16万独特姓名与10万姓氏,注重数据之精确性,旨在验证命名实体之有效性。
创建时间:
2019-06-14
原始信息汇总

数据集概述

数据集名称

  • First and Last Names Dataset

数据集内容

  • 包含约160,000个不同的名字和约100,000个不同的姓氏。

数据集可靠性

  • 该数据集强调精确性,适用于基于用户提交的名字进行验证。在文本中寻找名字实体时,可能会出现较多的误报。

数据集来源

  • 数据集从多个网站和资源中收集,包括但不限于:
    • http://listofrandomnames.com/index.cfm?generated
    • https://www.sajari.com/public-data
    • http://www.20000-names.com/
    • https://catalogue.data.gov.bc.ca/dataset/most-popular-boys-names-for-the-past-100-years
    • https://catalogue.data.gov.bc.ca/dataset/most-popular-girl-names-for-the-past-100-years
    • https://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/full-lists-of-babies-first-names-2010-to-2014
    • https://gender-api.com/en/pricing
    • https://github.com/OpenGenderTracking/globalnamedata/tree/master/assets
    • https://github.com/MatthiasWinkelmann/firstname-database
    • http://www.namepedia.org/en/firstname/Nabil/
    • https://datasets.imdbws.com/
    • https://www.imdb.com/interfaces/
    • https://opendata.stackexchange.com/questions/46/multinational-list-of-popular-first-names-and-surnames
    • ftp://ftp.heise.de/pub/ct/listings/0717-182.zip
    • https://data.world/howarder/gender-by-name
    • https://statbel.fgov.be/en/open-data/first-names-total-population-municipality
    • https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/bulletins/babynamesenglandandwales/previousReleases
    • http://www.cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/nlp/corpora/names/
    • https://www.ssa.gov/oact/babynames/limits.html
    • https://www.ssa.gov/OACT/babynames/
    • https://www.ssa.gov/cgi-bin/popularnames.cgi
    • https://github.com/hadley/data-baby-names/blob/master/baby-names.csv
    • http://www.quietaffiliate.com/free-first-name-and-last-name-databases-csv-and-sql/
    • https://stackoverflow.com/questions/1452003/plain-computer-parseable-lists-of-common-first-names
    • http://mbejda.github.io/
    • https://www2.census.gov/topics/genealogy/1990surnames/dist.all.last
    • https://opendata.stackexchange.com/questions/1108/database-of-names-of-japanese-and-non-japanese-people
    • https://opendata.stackexchange.com/questions/12234/name-and-gender-dataset
    • https://opendata.stackexchange.com/questions/7071/people-names-by-country
    • http://www.randomnames.com/all-boys-names.asp
    • https://en.wikipedia.org/wiki/List_of_most_popular_given_names#cite_note-ahram2004-2
    • http://www.avss.ucsb.edu/NameFema.HTM
    • http://www.oxfordreference.com/view/10.1093/acref/9780198610601.001.0001/acref-9780198610601?btog=chap&hide=true&page=248&pageSize=10&skipEditions=true&sort=titlesort&source=%2F10.1093%2Facref%2F9780198610601.001.0001%2Facref-9780198610601
    • https://github.com/dominictarr/random-name/blob/master/first-names.txt
    • https://github.com/smashew/NameDatabases/tree/master/NamesDatabases/first%20names
    • https://www.behindthename.com/names
    • https://incompetech.com/named/multi.pl

安装与使用

  • 安装命令:pip install names-dataset
  • 使用示例: python from names_dataset import NameDataset m = NameDataset() m.search_first_name(Mikael) m.search_last_name(Remy)
AI搜集汇总
数据集介绍
main_image_url
构建方式
First and Last Names Dataset的构建过程体现了对数据精确性和全面性的双重追求。该数据集通过整合来自多个权威网站和开放数据平台的信息,包括但不限于政府统计数据、社交媒体数据库以及专门的姓名研究网站。在数据收集阶段,特别注重了数据的多样性和代表性,涵盖了全球范围内的常见名字。此外,数据集在构建过程中采用了严格的筛选机制,以确保收录的名字具有较高的准确性和实用性。
使用方法
使用First and Last Names Dataset进行名字识别和验证非常直观。用户可以通过简单的Python代码调用数据集中的搜索功能,快速查找特定的名字或姓氏。例如,使用`search_first_name`和`search_last_name`方法可以分别查询名字和姓氏的存在性。此外,数据集还支持在文本中自动识别和提取名字,这对于处理大量文本数据时的自动化处理尤为有用。通过这种方式,数据集能够有效地支持各种需要名字识别的应用场景。
背景与挑战
背景概述
First and Last Names Dataset 是一个专注于收集全球范围内名字的数据集,旨在提供高精度和高召回率的名字识别工具。该数据集由多个开源数据源整合而成,涵盖了约16万个名字和10万个姓氏。其创建时间不详,但主要研究人员或机构通过GitHub等平台公开了数据集,并持续更新。该数据集的核心研究问题在于如何准确识别文本中的名字实体,特别是在多语言和跨文化背景下。其在自然语言处理、数据挖掘和人口统计学等领域具有广泛的应用潜力,尤其是在名字识别和性别分类等任务中。
当前挑战
First and Last Names Dataset 在解决名字识别问题时面临多重挑战。首先,名字的多样性和跨文化差异使得数据集的构建复杂化,例如某些词汇在不同语境下既可以是名字也可以是普通名词(如“Rose”)。其次,数据集的精度与召回率之间存在权衡,高精度可能导致召回率下降,反之亦然。此外,数据源的多样性和质量不一,部分数据源包含大量噪声,增加了数据清洗和整合的难度。这些挑战不仅影响了数据集的可靠性,也限制了其在复杂文本分析任务中的应用效果。
常用场景
经典使用场景
在自然语言处理(NLP)领域,First and Last Names Dataset 被广泛应用于姓名识别和分类任务中。该数据集包含了约16万个名字和10万个姓氏,为研究人员提供了一个丰富的资源,用于训练和测试算法,以准确识别文本中的姓名实体。特别是在处理多语言文本时,该数据集的高精度特性使其成为验证姓名识别模型性能的理想选择。
解决学术问题
该数据集有效解决了在文本分析中识别和分类姓名的学术挑战。通过提供大量真实世界的姓名数据,研究人员能够开发出更加精确的算法,减少在姓名识别过程中的误报和漏报。此外,该数据集还支持跨文化姓名研究,帮助学者理解不同文化背景下姓名的使用和分布规律。
实际应用
在实际应用中,First and Last Names Dataset 被用于多种场景,如客户关系管理系统中的客户姓名验证、社交媒体分析中的用户身份识别以及公共安全领域的嫌疑人姓名匹配。这些应用场景要求高精度的姓名识别能力,以确保数据的准确性和可靠性。
数据集最近研究
最新研究方向
在自然语言处理领域,First and Last Names Dataset 的最新研究方向聚焦于提高姓名识别的精确度和召回率。随着全球化进程的加速,跨文化姓名的识别与分类成为研究热点。该数据集通过整合来自多个国家和地区的姓名数据,为研究者提供了丰富的资源,以探索不同文化背景下姓名的分布规律及其在文本中的识别准确性。此外,结合机器学习算法,研究者正在开发更为智能的姓名实体识别模型,以应对复杂文本环境中的姓名提取挑战。这一研究不仅提升了姓名识别的技术水准,也为跨文化交流和信息检索提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

TCGA (The Cancer Genome Atlas)

TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。

portal.gdc.cancer.gov 收录