google-10000-english|英语词汇数据集|语言数据数据集
收藏数据集概述
数据集内容
- 包含10,000个最常见的英语单词,按频率排序。
- 数据来源于Google的万亿词库,通过n-gram频率分析确定单词频率。
数据集来源
- 数据集基于Peter Norvig编译的1/3百万最频繁英语单词列表。
- 本数据集从中筛选出前10,000个单词,并移除了频率计数。
特殊列表
- 提供两个无脏话的列表,适用于生成URL、临时密码等场景。
- 脏话基于多个开源列表进行筛选。
按长度分类的列表
- 分为短(1-4字符)、中(5-8字符)、长(9+字符)三个子列表。
- 每个子列表保持原始的频率排序。
使用场景
- 适用于打字训练程序,如Amphetype。
- 根据Oxford English Corpus分析,7,000个常用英语词条已覆盖约90%的使用场景,因此10,000词的训练集足以满足实际训练需求。
使用方法
- 在Amphetype中使用时,需将列表复制3次,分成3个子列表,并添加为“google-10000-english”源。
- 设置打字速度比当前平均速度高10WPM,准确率设为98%。

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
NWD978725.freeze5.v1.vcf.gz.csi
TOPMed: NWD978725.freeze5.v1.vcf.gz.csi <br>File: VCF CSI file
DataCite Commons 收录
danaroth/whu_hi
WHU-Hi数据集(武汉无人机载高光谱图像)由武汉大学RSIDEA研究组收集和共享,可作为精确作物分类和高光谱图像分类研究的基准数据集。该数据集包含三个独立的无人机载高光谱数据集:WHU-Hi-LongKou、WHU-Hi-HanChuan和WHU-Hi-HongHu,均在中国湖北省的农业区域采集。这些数据集通过安装在无人机平台上的Headwall Nano-Hyperspec传感器获取,具有高空间分辨率(H2图像)。数据集预处理包括辐射校准和几何校正,使用仪器制造商提供的HyperSpec软件进行处理。每个数据集都包含了详细的采集时间、天气条件、传感器信息、飞行高度、图像尺寸、波段数量和空间分辨率等信息,并提供了不同作物类别的样本数量。
hugging_face 收录