AVATAR|编程问题数据集|程序翻译数据集
收藏数据集概述
数据集名称
- AVATAR
数据集定义
- AVATAR代表JAVA-Python程序翻译。
- 包含9,515个编程问题及其Java和Python解决方案。
- 提供3,391个并行独立函数。
数据集内容
- 包含Java和Python的程序翻译实例。
- 提供预训练语言模型的评估结果。
- 执行基于程序翻译的评估。
数据集准备
- 数据准备步骤包括去除文档字符串、注释,使用基线模型进行标记化,根据长度阈值过滤数据,以及去重。
数据集使用
- 可通过运行
bash download.sh
下载数据。 - 数据准备脚本为
bash prepare.sh
。
模型研究
- 研究了11种模型,包括从零开始训练的模型和预训练模型。
训练与评估
- 通过执行相应的
run.sh
脚本进行模型训练和评估。
许可证
引用信息
@article{ahmad-etal-2021-avatar, title={AVATAR: A Parallel Corpus for Java-Python Program Translation}, author={Ahmad, Wasi Uddin and Tushar, Md Golam Rahman and Chakraborty, Saikat and Chang, Kai-Wei}, journal={arXiv preprint arXiv:2108.11590}, year={2021} }

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
中国高考录取分数线数据
高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。
CnOpenData 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录