华数杯2024C题数据集|城市气候数据集|环境数据数据集
收藏华数杯2024C题数据集概述
数据集文件
- 最终数据集:
county_data_final_add_temp_clean.csv
数据预处理
- 官方提供文件: 位于
附件
文件夹 - 数据处理: 剔除重复值后的文件夹
数据爬取
- 城市规模: 从citypopulation.de爬取,统计
总人口,面积,人口密度
- 爬虫脚本:
crawler_city_scale.py
- 保存文件:
county_data_city_scale.csv
- 数据合并脚本:
script_city_scale_data_merging.py
- 缺失数据分析脚本:
script_city_scale_missing_data_analysis.py
- 爬虫脚本:
- 空气质量: 从air-level.com爬取,统计
AQI值
- 爬虫脚本:
crawler_air_quality.py
- 保存文件:
county_data_air_quality.csv
- 爬虫脚本:
- 数据合并: 使用
script_merge_csv.py
合并爬虫结果,保存为county_data_1_2.csv
自然语言处理
- 数据合并: 使用
script_merge_csv_file_folder.py
合并数据处理
文件夹中的csv文件,保存为combined_csv_file.csv
- 词频统计: 使用
nlp_jibe_word_frequency_search.py
对介绍
和小贴士
列进行jieba分词,统计词频前1k的词语,保存为most_common_words.txt
- 关键词选择: 挑选环境环保、人文底蕴、交通便利、气候、美食方面的关键词
- 上下文查询: 使用
nlp_2-gram_word_context_searching.py
对关键词的上下文进行查询,结果保存为words_context.txt
- 频次统计: 使用
nlp_word_frequency_statistics.py
对关键词的频次做统计,结果保存为combined_csv_word_frequency.csv
- 结果合并: 使用
script_merge_csv_word_frequency.py
和script_merge_csv.py
对爬虫和自然语言处理的结果进行合并,保存为county_data_1_2_3.csv
交通数据
- 交通数据处理: 队友通过统计年鉴处理好的
交通.csv
,使用处理字符串.py
剔除双引号,后使用script_merge_csv.py
合并得到最终的数据集county_data_final.csv
平均气温
- 平均气温数据: 使用
excel2csv.py
将368个城市平均气温数据(2001-2022年).xlsx
转成csv文件,使用tiqu.py
提取特定两列,保存为county_average_temperature.csv
,使用hebing.py
合并,使用fill_nan.py
处理缺失值,最终得到county_data_final_add_temp_clean.csv
- 数据筛选: 最终数据集中删除
总人口,面积
两列,保留人口密度
列

lmarena-ai/arena-hard-auto-v0.1
--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```
hugging_face 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
QM9
QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。
quantum-machine.org 收录
中国1km分辨率逐月NDVI数据集(2001-2023年)
中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。
国家地球系统科学数据中心 收录