izhx/google-code-jam|编程竞赛数据集|代码分析数据集
收藏数据集概述
该数据集由DeepSim: deep learning code functional similarity创建。数据集来源于googlejam4.tar.gz
,并进行了部分文件的编码修正和重新压缩。
数据集分割
- 全部问题(all split):包含所有12个问题,与论文一致。
- 测试集(test split):包含问题5、6、7、8、12,用于Language Models are Universal Embedders的实验。
问题详情
问题编号 | 代码数量 |
---|---|
1 | 478 |
2 | 88 |
3 | 242 |
4 | 38 |
5 | 2 |
6 | 435 |
7 | 27 |
8 | 245 |
9 | 68 |
10 | 18 |
11 | 20 |
12 | 4 |

广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
OpenSinger
OpenSinger是由浙江大学发布的大规模多歌手中文歌唱语音数据集,旨在解决高保真歌唱语音合成中的数据稀缺问题。该数据集包含50小时的专业歌手录音,涵盖41位女性和25位男性的歌唱表演,所有录音均在专业录音棚完成,确保高质量无噪音。OpenSinger不仅规模大,质量高,而且是首个公开的中文多歌手歌唱语音数据集,适用于多种歌唱语音合成研究。数据集的创建过程包括精心挑选歌曲、组织专业歌手录音,并由专业团队进行标注和处理,确保数据的准确性和可用性。该数据集主要用于推动歌唱语音合成技术的发展,特别是在多歌手模型和未见歌手模型的合成质量提升方面。
arXiv 收录
PRAMS
Jamie Daw, jrd2199@cumc.columbia.edu
DataCite Commons 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
yolo-datasets
深度学习目标检测数据集/分割数据集最全最完整的数据集集合,包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。
github 收录