First and Last Names Dataset|姓名数据数据集|数据精度数据集
收藏姓名数据集
数据集概述
- 包含约16万条名字(First Names)
- 包含约10万条姓氏(Last Names)
安装方法
bash pip install names-dataset
使用示例
python from names_dataset import NameDataset m = NameDataset() m.search_first_name(Mikael) m.search_last_name(Remy)
可靠性说明
- 数据集强调高精度,适用于基于先验知识验证姓名的情况。
- 在文本中识别姓名实体时,可能会出现较多误报。
数据来源
- 数据集从多个网站获取,具体来源列表详见:
- http://listofrandomnames.com/index.cfm?generated
- https://www.sajari.com/public-data
- http://www.20000-names.com/
- https://catalogue.data.gov.bc.ca/dataset/most-popular-boys-names-for-the-past-100-years
- https://catalogue.data.gov.bc.ca/dataset/most-popular-girl-names-for-the-past-100-years
- https://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/full-lists-of-babies-first-names-2010-to-2014
- 其他来源详见README文件。

13_Gitovu.rar
:unav
DataCite Commons 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
FishBase Species List
FishBase Species List 是一个包含全球鱼类物种信息的全面数据库。该数据集提供了关于鱼类物种的详细信息,包括物种名称、分类学信息、分布区域、生态习性、繁殖行为、食性等。此外,数据集还包括了每个物种的图片和参考文献,以便用户进行深入研究。
www.fishbase.se 收录