flow_around_cylinder|流体动力学数据集|机器学习数据集
收藏数据集概述
数据来源
- 数据集源自OpenFOAM模拟,原始数据可从此链接获取。
数据处理
- 在线版本中,额外计算了力和单元中心。
- 数据集可通过解压
data.tgz
文件获取。
数据集操作
- 提供了多种子采样方法,包括比例子采样、随机子采样、全数据集采样等。
- 使用
python subsample_maxent.py
等脚本进行数据子采样,参数如--path
,--target
,-ns
,-nc
等用于指定路径、目标、样本数和聚类数。 - 支持通过
--subsample
参数选择不同的子采样方法,如equal
,random-weighted
等。 - 使用
--dtype
参数指定数据类型,如interpolated
,csv
等。
数据集应用
- 数据集用于机器学习模型的训练和验证,如通过
python train.py
脚本进行神经网络训练。 - 支持时间序列预测,通过设置
--window
参数进行窗口样本的子采样,并使用LSTM架构进行训练。
数据集可视化
- 通过
ffmpeg
命令创建结果视频,用于展示maxent.py
的输出。
注意事项
- 更改特征、目标、窗口或数据类型定义后,需删除
snapshots/raw_data.npz
文件以避免错误或不正确的结果。 - 为复现AI4S论文中的图8结果,需运行特定命令多次并平均结果。

CFBenchmark
CFBenchmark是一个专为评估大型语言模型在中文金融助理领域性能而设计的数据集。由同济大学和上海人工智能实验室联合创建,该数据集包含3917个金融文本,覆盖金融识别、分类和生成三大方面,共计八个任务。数据集内容丰富,包括金融新闻和研究报告,文本长度从50字到超过1800字不等,旨在全面测试模型在金融文本处理中的基本能力。创建过程中,专业研究人员对文本进行了严格的筛选和标注,确保数据质量。CFBenchmark的应用领域广泛,主要用于提升金融决策的自动化和智能化水平,解决金融文本处理中的关键问题。
arXiv 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
ActivityNet Captions
The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.
Papers with Code 收录
GEO (Gene Expression Omnibus)
GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.
OPEN DATA NETWORK 收录
中文人名语料库(Chinese-Names-Corpus)
本项目包含多个数据集,如中文常见人名、中文古代人名、中文姓氏等,数据大小从数千到数百万不等,语料来源广泛,经过数据清洗处理,适用于中文分词、人名识别等场景。
github 收录