community-datasets/tashkeela|阿拉伯语处理数据集|自然语言处理数据集
收藏数据集概述
数据集摘要
Tashkeela数据集包含7500万个完全标注的阿拉伯语单词,主要来自97本古典和现代阿拉伯语书籍。
支持的任务和排行榜
- 文本生成
- 填充掩码
语言
数据集基于阿拉伯语。
数据集结构
数据实例
数据实例包括书籍文件名和文本内容。
数据字段
book
(字符串): 书籍文件名。text
(字符串): 书籍文本内容。
数据分割
数据集未进行分割。
数据集创建
数据收集和规范化
现代标准阿拉伯语文本从互联网上爬取。
源语言生产者
网站。
标注
数据集不包含任何额外标注。
许可证信息
数据集遵循GNU General Public License, version 2 (GPLv2)。
引用信息
数据集相关论文:
@article{zerrouki2017tashkeela, title={Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems}, author={Zerrouki, Taha and Balla, Amar}, journal={Data in brief}, volume={11}, pages={147}, year={2017}, publisher={Elsevier} }
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录