CCNC|中文姓名研究数据集|实体识别数据集
收藏数据集概述
基本统计信息
姓名数 (names) | 姓的数量 (last names ) | 名的数量 (first names) | 男性数量 (M) | 女性数量 (F) | 未知性别 (Unknown) |
---|---|---|---|---|---|
3658109 | 808 | 710594 | 2054134 | 1509650 | 94325 |
拼音版
- 姓氏拼音使用自制的中文姓氏注音字典,名则使用pypinyin。
- 提供三个版本的语料库下载链接:纯中文版及两个拼音版。
来源
- 数据集来源:
- 处理细节:
- 区分了原本不分的姓名。
- 删除了约三十万的重叠语例。
- 同名不同性别的视为不同语例。
- 未知性别语例来自中文人名语料库。
中文姓氏注音字典
- 包含1606条中文姓氏及其拼音。
- 1534条姓氏及其注音来自名霸百家姓,其余72条由作者手动注音。
训练集/测试集/预测集

钻孔成像测井解译数据(2021-2022年)
利用测井设备实时获取的雄安新区D19,D21,D22,冀中坳陷地区JZ01,JZ04钻孔的测井数据,并由Techlog软件 WBI井眼成像解释模块解译的裂缝原始数据
国家地球系统科学数据中心 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
LogiQA
LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。
OpenDataLab 收录
NCBI Bookshelf
Bookshelf provides free online access to books and documents in life science and healthcare. Search, read, and discover.
国家生物信息中心 收录
CRACK500
For the details of the work, the readers are refer to the paper "Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection" (FPHB), T-ITS 2019. You can find the paper in https://www.researchgate.net/publication/330244656_Feature_Pyramid_and_Hierarchical_Boosting_Network_for_Pavement_Crack_Detection or https://arxiv.org/abs/1901.06340.
Papers with Code 收录