five

StephanAkkerman/frequency-words-2018|语言频率分析数据集|多语言数据集数据集

收藏
hugging_face2024-11-17 更新2024-12-14 收录
语言频率分析
多语言数据集
下载链接:
https://hf-mirror.com/datasets/StephanAkkerman/frequency-words-2018
下载链接
链接失效反馈
资源简介:
该数据集是hermitdaves FrequencyWords的克隆,原始数据集可以在OpenSubtitles2018网站上找到。数据集中包含了多种语言的单词频率信息,支持的语言包括阿尔巴尼亚语、南非荷兰语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、孟加拉语、波斯尼亚语、布列塔尼语、保加利亚语、加泰罗尼亚语、简体中文、繁体中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、印地语、匈牙利语、印度尼西亚语、冰岛语、意大利语、日语、卡纳达语、韩语、哈萨克语、拉脱维亚语、立陶宛语、马拉雅拉姆语、马来语、马其顿语、马拉地语、挪威语、波兰语、葡萄牙语、巴西葡萄牙语、罗马尼亚语、俄语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、泰米尔语、泰卢固语、泰语、他加禄语、土耳其语、乌克兰语、乌尔都语、越南语以及双语中文/英语。

The Frequency Words 2018 dataset is a clone of the data provided by hermitdaves FrequencyWords project, with the original data sourced from OpenSubtitles2018. This dataset contains word frequency information for multiple languages, including Albanian, Afrikaans, Amharic, Arabic, Armenian, Azerbaijani, Bengali, Bosnian, Breton, Bulgarian, Catalan, Simplified Chinese, Traditional Chinese, Croatian, Czech, Danish, Dutch, English, Esperanto, Estonian, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Hindi, Hungarian, Indonesian, Icelandic, Italian, Japanese, Kannada, Korean, Kazakh, Latvian, Lithuanian, Malayalam, Malay, Macedonian, Marathi, Norwegian, Polish, Portuguese, Brazilian Portuguese, Romanian, Russian, Sinhala, Slovak, Slovenian, Tamil, Telugu, Thai, Tagalog, Turkish, Ukrainian, Urdu, Vietnamese, and Bilingual Chinese/English.
提供机构:
StephanAkkerman
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录