fishtest_pgns|计算机象棋数据集|数据分析数据集
收藏数据集概述
数据集名称
PGNs of Stockfish playing LTC games on Fishtest
许可证
LGPL-3.0
数据集标签
- 棋类
- Stockfish
- Fishtest
数据集描述
该数据集是计算机棋类游戏,由Stockfish引擎在Fishtest平台上进行LTC游戏生成的PGN文件集合。PGN文件中包含的走法注释有引擎评估、搜索深度和走步时间信息。每个目录还包含一个JSON文件,包含测试的一些元数据。几乎所有的游戏都是经典棋类游戏。
统计信息
- PGN文件总数:约13K
- 游戏总数(近似):960M
- 数据集大小:约900GB
数据下载
- 克隆整个仓库需要大约双倍的大小。
- 可以使用API下载单个文件夹。
- 单个PGN文件可以通过wget命令下载。
已知问题
- PGN文件解析时需要进行最小验证。
- 已知问题包括位翻转、太短的将死分数声明等。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录