five

STS-Dino

收藏
arXiv2021-10-04 更新2024-06-21 收录
下载链接:
https://github.com/timoschick/dino
下载链接
链接失效反馈
官方服务:
资源简介:
STS-Dino是由慕尼黑大学信息与语言处理中心开发的自动生成文本相似度数据集,无需人工标注。该数据集包含121,275条数据,通过大型预训练语言模型生成,用于训练更小、更高效的语言模型。数据集的创建过程利用了预训练模型的生成能力,自动从零开始生成带标签的文本对。STS-Dino主要应用于解决自然语言处理中的语义文本相似性问题,通过提供大量高质量的训练数据,推动了无监督学习方法的发展。

STS-Dino is an automatically generated text similarity dataset developed by the Center for Information and Language Processing (CIS) at Ludwig Maximilian University of Munich (LMU Munich), which requires no manual annotation. The dataset contains 121,275 data samples, generated via large-scale pre-trained language models for training smaller and more efficient language models. The creation process of STS-Dino leverages the generation capabilities of pre-trained models to automatically generate labeled text pairs from scratch. Primarily applied to solve semantic textual similarity problems in natural language processing, STS-Dino promotes the development of unsupervised learning approaches by providing a large volume of high-quality training data.
提供机构:
慕尼黑大学信息与语言处理中心
创建时间:
2021-04-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作