ANLI (Adversarial NLI)|自然语言处理数据集|对抗性样本数据集
收藏
- ANLI数据集首次发表,旨在通过对抗性训练提高自然语言推理模型的鲁棒性。
- ANLI数据集在多个自然语言处理任务中得到应用,特别是在模型鲁棒性评估方面。
- ANLI数据集被广泛用于研究对抗性样本生成和模型防御策略,成为自然语言推理领域的重要基准。
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
惠州市惠阳区年末常住人口信息
惠州市惠阳区年末常住人口,该数据包含了2021年-2022年惠州市惠阳区年末常住人口的数据,应用于惠州市惠阳区人口分析服务场景,经由统计机构统计汇总而成的数据。
开放广东 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录
无人机智能识别违章建筑算法模型的图像训练数据
无人机智能识别违章建筑算法模型的图像训练数据的应用场景主要集中在提升AI模型对违章建筑的识别能力和准确度。通过对这些数据的训练,AI模型能够更有效地支撑无人机在国土空间治理中的智能化监测任务,基于地理坐标与二级标注体系,AI模型能区分未批先建/超面积建设/非法改建等违建形态,可应用于山地村落违建排查、工业园区超容建设监测等场景,可应用于支撑相关管理部门对违法建设行为的早发现、精定位、快处置闭环管理需求。1、数据来源:原始数据通过自有智能无人机拍摄采集,记录图像ID、采集时间、文件路径、采集设备、地理坐标、拍摄高度、环境参数、边界框组等数据,通过数据清洗,保证数据质量。 2、数据预处理与标注:①对原始数据按7:2:1比例划分训练集/验证集/测试集;②采用多级标注体系:一级标签(违建/合规)、二级标签(未批先建/超面积建设/非法改建等)。③关联要素包含用地性质、产权范围等信息。 3、模型选择和初始化:采用YOLOv5预训练模型,并初始化模型参数,设置合理的超参数:学习率0.002-0.0001动态调整,批量大小16,锚框参数根据拍摄图像特征优化;同时集成注意力机制增强小目标检测能力。 4、模型训练:使用PyTorch框架实施分布式训练,设置训练时长,采用迁移学习策略,冻结底层特征提取层参数,引入Mosaic数据增强提升复杂场景适应能力,设置早停机制(patience=15)防止过拟合。 5、模型评估:① 构建多维评估体系:基础指标(mAP@0.5)、夜间检测率、误报率、漏报率。② 设置渐进式测试:单体建筑→建筑群→混合功能区→历史保护区四阶段测试。 6、模型优化:优化推理引擎,保障推理速度,并建立区域特征库机制。
浙江省数据知识产权登记平台 收录