semeru/Code-Code-CloneDetection-POJ104|代码克隆检测数据集|编程语言处理数据集
收藏数据集概述
基本信息
- 许可证: MIT
- 编程语言: C
- 日期: 2015年,源自论文POJ-104
- 污染可能性: 很可能
- 数据大小: 标准分词器
数据集来源与处理
- 数据集从CodeXGLUE导入,并使用其脚本进行预处理。
数据集位置
- 在Semeru中的位置:
/nfs/semeru/semeru_datasets/code_xglue/code-to-code/Clone-detection-POJ-104
任务定义
- 任务: 给定一段代码和一组候选代码,返回语义相同的Top K代码。
- 评估指标: MAP@R分数,其中R在本数据集中为499。
数据格式
- 每个文件的每一行代表一个函数,包含以下信息:
- code: 源代码
- label: 源代码解决的问题编号
- index: 示例索引
数据统计
#问题数 | #示例数 | |
---|---|---|
训练 | 64 | 32,000 |
开发 | 16 | 8,000 |
测试 | 24 | 12,000 |
引用
@inproceedings{mou2016convolutional, title={Convolutional neural networks over tree structures for programming language processing}, author={Mou, Lili and Li, Ge and Zhang, Lu and Wang, Tao and Jin, Zhi}, booktitle={Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence}, pages={1287--1293}, year={2016} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
MealRec+
MealRec+数据集是由武汉理工大学研究团队创建的,旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录,涵盖了餐食与菜品之间的关联信息,以及用户与餐食的交互数据。创建过程中,研究团队采用了模拟方法,从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外,数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性,提供更健康的餐食推荐,以促进用户的健康饮食习惯。
arXiv 收录