five

MSCiNLI

收藏
arXiv2024-04-12 更新2024-06-21 收录
下载链接:
https://github.com/msadat3/MSciNLI
下载链接
链接失效反馈
官方服务:
资源简介:
MSCiNLI是一个多领域的科学自然语言推理数据集,由伊利诺伊大学芝加哥分校计算机科学系创建。该数据集包含132,320个句子对,这些句子对来自五个不同的科学领域:硬件、网络、软件与工程、安全和隐私、NeurIPS。数据集的创建过程涉及使用远程监督方法,利用科学论文中的链接短语自动标注大量训练集,并对测试和开发集进行人工标注以确保高质量。MSCiNLI数据集旨在解决科学领域中的自然语言推理问题,特别是在多领域环境下的模型泛化能力和跨领域适应性。

MSCiNLI is a multi-domain scientific natural language inference dataset created by the Department of Computer Science at the University of Illinois Chicago. It contains 132,320 sentence pairs sourced from five distinct scientific domains: hardware, networking, software and engineering, security and privacy, and NeurIPS. The dataset was constructed using distant supervision methods, where link phrases in scientific papers were utilized to automatically annotate a large-scale training set, while manual annotation was conducted for the test and development sets to ensure high data quality. MSCiNLI aims to address natural language inference tasks in the scientific domain, particularly focusing on model generalization and cross-domain adaptability in multi-domain environments.
提供机构:
伊利诺伊大学芝加哥分校计算机科学系
创建时间:
2024-04-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作