danielheinz/telekom-backtrans-paraphrase-filtered
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/danielheinz/telekom-backtrans-paraphrase-filtered
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过过滤的Philip May的德语释义数据集。过滤的目的是为了方便使用,因为较小的设备不支持大文件。数据集中的所有文本对都是释义,因此被标记为1,这使得它非常适合与多重否定排序损失一起使用。过滤遵循了原作者设定的指南,包括最小字符长度、德语和英语的标记数量、Jaccard相似度和余弦相似度等条件。
这是一个经过过滤的Philip May的德语释义数据集。过滤的目的是为了方便使用,因为较小的设备不支持大文件。数据集中的所有文本对都是释义,因此被标记为1,这使得它非常适合与多重否定排序损失一起使用。过滤遵循了原作者设定的指南,包括最小字符长度、德语和英语的标记数量、Jaccard相似度和余弦相似度等条件。
提供机构:
danielheinz
原始信息汇总
数据集概述
数据集描述
这是一个经过筛选的德语同义句数据集,源自Philip May的德语同义句数据集。
数据集大小
数据集大小在100K到1M之间。
语言
数据集包含德语文本。
任务类别
数据集适用于以下任务:
- 特征提取
- 文本分类
数据集特点
- 所有文本对都是同义句,因此标注为1。
- 数据集适合与多重负例排名损失结合使用。
筛选条件
数据集按照以下条件进行筛选:
- 最小字符长度 < 25
- 德语词数 > 30
- 英德词数 > 30
- Jaccard相似度 > 0.3
- 余弦相似度 < 0.9
许可
数据集遵循CC-BY-SA 4.0许可协议。



