google-10000-english|英语词汇数据集|语言数据数据集
收藏数据集概述
数据集内容
- 包含10,000个最常见的英语单词,按频率排序。
- 数据来源于Google的万亿词库,通过n-gram频率分析确定单词频率。
数据集来源
- 数据集基于Peter Norvig编译的1/3百万最频繁英语单词列表。
- 本数据集从中筛选出前10,000个单词,并移除了频率计数。
特殊列表
- 提供两个无脏话的列表,适用于生成URL、临时密码等场景。
- 脏话基于多个开源列表进行筛选。
按长度分类的列表
- 分为短(1-4字符)、中(5-8字符)、长(9+字符)三个子列表。
- 每个子列表保持原始的频率排序。
使用场景
- 适用于打字训练程序,如Amphetype。
- 根据Oxford English Corpus分析,7,000个常用英语词条已覆盖约90%的使用场景,因此10,000词的训练集足以满足实际训练需求。
使用方法
- 在Amphetype中使用时,需将列表复制3次,分成3个子列表,并添加为“google-10000-english”源。
- 设置打字速度比当前平均速度高10WPM,准确率设为98%。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录