MRPC|自然语言处理数据集|句子相似度数据集
收藏
- MRPC数据集首次发表于2005年,作为文本匹配任务的标准数据集,由William B. Dolan和Chris Brockett在论文《Automatically Constructing a Corpus of Sentential Paraphrases》中提出。
- MRPC数据集在2006年的文本分析会议(Text Analysis Conference, TAC)上首次被应用于文本匹配任务的评估,成为该领域的重要基准。
- MRPC数据集在2018年被纳入GLUE(General Language Understanding Evaluation)基准测试中,进一步提升了其在自然语言处理研究中的影响力。
- 1Microsoft Research Paraphrase CorpusMicrosoft Research · 2005年
- 2BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
- 3RoBERTa: A Robustly Optimized BERT Pretraining ApproachFacebook AI Research · 2019年
- 4ALBERT: A Lite BERT for Self-supervised Learning of Language RepresentationsGoogle Research · 2020年
- 5Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksUniversity of Stuttgart · 2019年
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录