Omartificial-Intelligence-Space/Arabic-stsb
收藏Hugging Face2024-07-03 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Omartificial-Intelligence-Space/Arabic-stsb
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯语语义文本相似性基准,包含新闻标题、视频和图像标题以及自然语言推理数据的句子对。每对句子均由人类标注相似度分数,原始分数范围为1至5,在此变体中归一化至0至1。
阿拉伯语语义文本相似性基准,包含新闻标题、视频和图像标题以及自然语言推理数据的句子对。每对句子均由人类标注相似度分数,原始分数范围为1至5,在此变体中归一化至0至1。
提供机构:
Omartificial-Intelligence-Space
原始信息汇总
阿拉伯语 STSB 结构
- 数据集描述:这是语义文本相似性基准(Cer et al., 2017)的阿拉伯语版本,包含从新闻标题、视频和图像说明以及自然语言推理数据中提取的句子对。
- 标注信息:每个句子对都由人工标注了1到5的相似度分数,但在此版本中,相似度分数被标准化为0到1之间。
示例
python { "sentence1": "طائرة ستقلع", "sentence2": "طائرة جوية ستقلع", "score": 1.0 }
{ "sentence1": "رجل يعزف على ناي كبير", "sentence2": "رجل يعزف على الناي.", "score": 0.76 }
收集策略
- 数据处理:从STSB数据集中读取句子和分数,并将分数除以5进行标准化。
- 去重:未去重。
免责声明
- 翻译准确性:翻译后的句子使用神经机器翻译生成,可能无法始终准确传达原意。
- 分数标准化:相似度分数已标准化,原始分数在1到5之间。



