Vietnamese Corpus|自然语言处理数据集|越南语研究数据集
收藏越南语文本语料库
项目介绍
越南语文本语料库项目旨在提供一个组织良好的越南语文本资源集合,涵盖多个主题领域。该语料库可用于自然语言处理(NLP)、机器翻译、文本分析以及其他涉及越南语的研究和应用。语料库中的文档按主题分类,方便用户访问和利用这些资源。
该项目还整合了越南语维基百科词典资源,允许用户轻松查找和使用越南语词汇的定义和背景信息。
分类目录
语料库中的文本文档根据内容主题进行分类,各分类的详细信息如下:
- Chính trị Xã hội (政治与社会) - 包含6567个文档,涵盖越南政治、社会现象及相关问题。
- Đời sống (生活) - 包含4195个文档,涵盖与日常生活相关的内容,如家庭、教育、文化等。
- Kinh doanh (商业) - 包含4276个文件,重点关注商业、经济和金融等主题。
- Pháp luật (法律) - 包含6656个文件,涵盖法律、法规、司法案件等。
- Sức khỏe (健康) - 包含4417个文件,涵盖医疗健康和公共卫生等主题。
- Thế giới (世界) - 包含5716个文件,讨论国际新闻、全球问题、外交事务等。
- Thể thao (体育) - 包含5667个文件,涵盖体育新闻、赛事报道、运动员信息等。
- Văn hóa (文化) - 包含5250个文件,涵盖艺术、文学、传统文化等。
维基百科词典
该项目整合了来自维基百科的越南语词典。

MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录