five

danielheinz/telekom-backtrans-paraphrase-filtered

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/danielheinz/telekom-backtrans-paraphrase-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过过滤的Philip May的德语释义数据集。过滤的目的是为了方便使用,因为较小的设备不支持大文件。数据集中的所有文本对都是释义,因此被标记为1,这使得它非常适合与多重否定排序损失一起使用。过滤遵循了原作者设定的指南,包括最小字符长度、德语和英语的标记数量、Jaccard相似度和余弦相似度等条件。

这是一个经过过滤的Philip May的德语释义数据集。过滤的目的是为了方便使用,因为较小的设备不支持大文件。数据集中的所有文本对都是释义,因此被标记为1,这使得它非常适合与多重否定排序损失一起使用。过滤遵循了原作者设定的指南,包括最小字符长度、德语和英语的标记数量、Jaccard相似度和余弦相似度等条件。
提供机构:
danielheinz
原始信息汇总

数据集概述

数据集描述

这是一个经过筛选的德语同义句数据集,源自Philip May的德语同义句数据集。

数据集大小

数据集大小在100K到1M之间。

语言

数据集包含德语文本。

任务类别

数据集适用于以下任务:

  • 特征提取
  • 文本分类

数据集特点

  • 所有文本对都是同义句,因此标注为1。
  • 数据集适合与多重负例排名损失结合使用。

筛选条件

数据集按照以下条件进行筛选:

  • 最小字符长度 < 25
  • 德语词数 > 30
  • 英德词数 > 30
  • Jaccard相似度 > 0.3
  • 余弦相似度 < 0.9

许可

数据集遵循CC-BY-SA 4.0许可协议。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作