Olympics-Dataset|奥运会数据集|体育成绩分析数据集
收藏Olympics-Dataset 概述
数据集内容
- 运动员信息:包含每位运动员的原始传记信息,位于
athletes/bios.csv
。 - 比赛结果:详细记录了每位运动员参与的每项赛事及其结果,位于
results/results.csv
。
数据来源与采集方法
- 数据来源于 olympedia.org。
- 使用 Python 的 Beautiful Soup 库进行网页抓取,具体脚本参见
scrape_data.py
。
数据集更新
- 数据涵盖 1896 至 2022 年的夏季和冬季奥运会运动员及其成绩,并计划在 2024 年巴黎奥运会后更新 2024 年的数据。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
lmarena-ai/PPE-MATH-Best-of-K
--- dataset_info: features: - name: question_id dtype: string - name: problem dtype: string - name: level dtype: string - name: type dtype: string - name: solution dtype: string - name: sanitized_solution dtype: string - name: model_name dtype: string - name: prompt dtype: string - name: scores sequence: bool - name: parsed_outputs sequence: string - name: mean_score dtype: float64 - name: response_1 dtype: string - name: response_2 dtype: string - name: response_3 dtype: string - name: response_4 dtype: string - name: response_5 dtype: string - name: response_6 dtype: string - name: response_7 dtype: string - name: response_8 dtype: string - name: response_9 dtype: string - name: response_10 dtype: string - name: response_11 dtype: string - name: response_12 dtype: string - name: response_13 dtype: string - name: response_14 dtype: string - name: response_15 dtype: string - name: response_16 dtype: string - name: response_17 dtype: string - name: response_18 dtype: string - name: response_19 dtype: string - name: response_20 dtype: string - name: response_21 dtype: string - name: response_22 dtype: string - name: response_23 dtype: string - name: response_24 dtype: string - name: response_25 dtype: string - name: response_26 dtype: string - name: response_27 dtype: string - name: response_28 dtype: string - name: response_29 dtype: string - name: response_30 dtype: string - name: response_31 dtype: string - name: response_32 dtype: string - name: conflict_pairs sequence: sequence: int64 - name: sampled_conflict_pairs sequence: sequence: int64 splits: - name: train num_bytes: 28121544 num_examples: 512 download_size: 12452688 dataset_size: 28121544 configs: - config_name: default data_files: - split: train path: data/train-* --- # Overview This contains the MATH correctness preference evaluation set for Preference Proxy Evaluations. The prompts are sampled from [MATH](https://huggingface.co/datasets/hendrycks/competition_math). This dataset is meant for benchmarking and evaluation, not for training. [Paper](https://arxiv.org/abs/2410.14872) [Code](https://github.com/lmarena/PPE) # License User prompts are licensed under MIT, and model outputs are governed by the terms of use set by the respective model providers. # Citation ``` @misc{frick2024evaluaterewardmodelsrlhf, title={How to Evaluate Reward Models for RLHF}, author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica}, year={2024}, eprint={2410.14872}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.14872}, } ```
hugging_face 收录
ChineseFoodNet
这个是一个关于中国传统食物图片的数据集。其中包含了208类食物,数据集图片总量大小约20G,数量约18W。
github 收录
VT-MOT
VT-MOT数据集由安徽大学的智能计算与信号处理教育部重点实验室创建,是一个大规模的可见光与热红外视频基准,专门用于多目标跟踪研究。该数据集包含582对视频序列,总计401k帧对,采集自无人机、监控摄像头和手持设备,具有高度的时空对齐和3.99百万个高质量标注框。数据集的创建过程中,专业人员进行了逐帧的时空对齐和双重检查的标注工作,确保了数据的高质量和密集性。VT-MOT数据集的应用领域主要集中在复杂环境下的多目标跟踪,旨在通过融合可见光与热红外数据的优势,提高跟踪算法的鲁棒性和准确性。
arXiv 收录
Global Flood Database (GFD)
全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。
global-flood-database.cloudtostreet.info 收录