中文人名语料库(Chinese-Names-Corpus)|中文人名数据集|数据集数据集
收藏中文人名语料库(Chinese-Names-Corpus)
中文常见人名(Chinese_Names_Corpus)
- 数据大小:120万。
- 语料来源:从亿级人名语料中提取。
- 数据清洗:已清洗,但仍存有少量badcase。
中文古代人名(Ancient_Names_Corpus)
- 数据大小:25万。
- 语料来源:多个人名词典汇总。
- 数据清洗:已清洗。
中文姓氏(Chinese_Family_Name)
- 数据大小:1千。
- 语料来源:从亿级人名语料中提取。
- 数据清洗:已清洗。
中文称呼(Chinese_Relationship)
- 数据大小:5千,称呼词根;18万,中文称呼。
- 语料来源:多个人名词典汇总。
- 数据清洗:已清洗,但仍存有大量badcase。
英文人名语料库(English-Names-Corpus)
翻译人名(English_Cn_Name_Corpus)
- 数据大小:48万。
- 语料来源:多个人名词典汇总。
- 数据清洗:已清洗,但仍存有少量badcase,以地名居多。
日文人名语料库(Japanese_Names_Corpus)
日文人名(Japanese_Names_Corpus)
- 数据大小:18万。
- 数据来源:从维基百科中提取。
- 数据清洗:已清洗,但仍存有少量badcase。
中文词典语料库(Chinese_Dict_Corpus)
成语词典(ChengYu_Corpus)
- 数据大小:5万。
- 语料来源:多个成语词典汇总。
- 数据清洗:已清洗。
更新记录
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30
- 删除了约3万余非人名、或低频人名。 -2018.11.04
- 删除了2600余非人名、或低频人名。 -2019.04.15
- 删除了约1万余非人名、或低频人名。 -2019.07.27
- 将文件移动到文件夹。 -2019.10.21
- 新增人名生成器。 -2020.01.29
- 删除了约6万余非人名、或低频人名。 -2020.12.13
- 更新人名生成器。 -2021.11.22
- 删除了约700余非人名、或低频人名。 -2022.11.30

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
yolo-datasets
深度学习目标检测数据集/分割数据集最全最完整的数据集集合,包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录