STS-B (Semantic Textual Similarity Benchmark)|文本相似度数据集|语义分析数据集
收藏
- STS-B数据集首次发表于2017年,作为SemEval-2017任务1的一部分,旨在评估文本之间的语义相似性。
- STS-B数据集首次应用于自然语言处理领域的研究,特别是在预训练语言模型和文本相似性评估中,成为重要的基准数据集。
- 随着BERT等预训练语言模型的兴起,STS-B数据集被广泛用于模型性能评估,特别是在语义文本相似性任务中。
- STS-B数据集继续在自然语言处理研究中发挥重要作用,成为评估模型在语义理解能力上的关键指标。
- 1SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Cross-lingual Focused EvaluationAssociation for Computational Linguistics · 2017年
- 2BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
- 3Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksUniversity of Stuttgart · 2019年
- 4RoBERTa: A Robustly Optimized BERT Pretraining ApproachFacebook AI Research · 2019年
- 5SimCSE: Simple Contrastive Learning of Sentence EmbeddingsPrinceton University · 2021年
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
中国区域1km分辨率逐月平均风速数据集(2000-2020年)
中国区域1km分辨率逐月平均风速数据集(2001-2020年),是基于再分析气候数据经过空间降尺度得到,包括中国陆地范围,空间分辨率1km,时间分辨率为逐月。可以为气候变化、生态学、农学等研究提供逐月平均风速数据。
国家地球系统科学数据中心 收录