SNLI|自然语言处理数据集|文本蕴涵数据集
收藏
- SNLI(Stanford Natural Language Inference)数据集首次发表,由Samuel R. Bowman等人提出,旨在为自然语言推理任务提供一个大规模的标注数据集。
- SNLI数据集被广泛应用于各种自然语言处理模型中,成为评估模型在推理任务上性能的标准基准之一。
- 研究者们开始利用SNLI数据集进行多任务学习,探索其在跨任务迁移学习中的潜力。
- SNLI数据集的扩展版本MultiNLI发布,进一步推动了自然语言推理任务的研究和应用。
- SNLI数据集被用于预训练语言模型,如BERT和RoBERTa,显著提升了这些模型在下游任务中的表现。
- 研究者们开始对SNLI数据集进行深入分析,发现并修正了其中的标注偏差问题,提升了数据集的质量和可靠性。
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
VEDAI
用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录