sentence-transformers/sentence-compression
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/sentence-compression
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Sentence Compression项目的文本-简化文本对的集合。数据集包含两列:text和simplified,数据类型均为字符串。数据集可以直接用于训练Sentence Transformers模型,适用于特征提取和句子相似性任务。数据集的大小在100K到1M之间,是单语言的(英语)。
该数据集是Sentence Compression项目的文本-简化文本对的集合。数据集包含两列:text和simplified,数据类型均为字符串。数据集可以直接用于训练Sentence Transformers模型,适用于特征提取和句子相似性任务。数据集的大小在100K到1M之间,是单语言的(英语)。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语种
- 大小: 10万<n<100万
- 任务类别: 特征提取, 句子相似性
- 美观名称: 句子压缩
- 标签: 句子转换器
数据集配置
- 配置名称: pair
- 特征:
- text: 字符串类型
- simplified: 字符串类型
数据集分割
- 训练集:
- 字节数: 36787355
- 示例数: 180000
- 下载大小: 27233130
- 数据集大小: 36787355
数据集子集
- 子集名称: pair
-
列: "text", "simplified"
-
列类型: 字符串, 字符串
-
示例: python { text: "The USHL completed an expansion draft on Monday as 10 players who were on the rosters of USHL teams during the 2009-10 season were selected by the Leagues two newest entries, the Muskegon Lumberjacks and Dubuque Fighting Saints.", simplified: USHL completes expansion draft, }
-
收集策略: 从Sentence Compression数据集读取
-
去重: 否
-



