交通事故統計情報のオープンデータ(2023年)の本票|交通事故统计数据集|地理信息系统数据集
收藏交通事故統計情報のオープンデータ(2023年)
概要
- 本プログラムは、警察庁が公開している交通事故統計情報のオープンデータ(2023年)をコード表をもとに読みやすい形式(GISデータ)に変換するプログラムです。
- Pythonで構築されています。
データ変換プログラム
csvfile-to-degree.py
- 本票CSVファイル(2023年)の「地点 緯度(北緯)」と「地点 経度(東経)」を十進法度単位に変換するプログラム。
- 文字コードをUTF-8に変換します。
使用データ
出力結果
csvfile-convert.py
- 十進法度単位に変換した本票CSVファイル(2023年)をコード表をもとに読みやすいデータに変換するプログラム。
使用データ
- https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2023_to-degree.csv, 75.6MB
- コード表:https://github.com/shiwaku/npa-traffic-accident-data-2023-converter/tree/main/code
出力結果
csvfile-merge.py
- 2019-2022年のデータと2023年のデータをマージするプログラム。
使用データ
- https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2019-2021_convert_v2.csv, 722.4MB
- https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2022_convert.csv, 227.4MB
- https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2023_convert.csv, 234.0MB
出力結果
- 2019~2023年のデータをマージしたデータ
- CSV形式: https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2019-2023_convert.csv, 1.2GB
- GeoParquet形式: https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2019-2023_convert.parquet, 154MB
- PMTiles形式: https://xs489works.xsrv.jp/pmtiles-data/traffic-accident/honhyo_2019-2023_convert.pmtiles, 313MB
ライセンス
- 本データセットはCC-BY-4.0で提供されます。使用の際には本レポジトリへのリンクを提示してください。
- 本データセットの使用・加工にあたっては、警察庁Webサイトの利用規約を必ずご確認ください。

FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
NSL-KDD
NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录