vkpriya/str-2022
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vkpriya/str-2022
下载链接
链接失效反馈官方服务:
资源简介:
STR-2022数据集包含5500对英文句子,每对句子都有一个从0到1的相关性评分,评分通过比较注释方法获得。这些句子来自不同的来源,具有不同的句子结构、词汇重叠程度和正式程度。数据集的应用包括问答系统、抄袭检测、文本生成和摘要等。
The STR-2022 Dataset contains 5,500 pairs of English sentences, with each pair assigned a relevance score ranging from 0 to 1. The scores are acquired through a comparative annotation approach. These sentences are sourced from diverse origins, and exhibit varied sentence structures, varying degrees of lexical overlap and distinct formality levels. Potential applications of this dataset include question answering systems, plagiarism detection, text generation, text summarization and other relevant natural language processing tasks.
提供机构:
vkpriya
原始信息汇总
数据集概述
基本信息
- 许可证: other
- 任务类别: sentence-similarity
- 语言: en
- 标签:
- #sentence-relatedness
- #semantic-similarity
- #semantic-relatedness
- 美观名称: str-2022
- 大小类别: 1K<n<10K
数据集描述
- 组成: 包含5500对英语句子,这些句子在相关性尺度上被评分和排名,范围从0(最不相关)到1(最相关)。
- 文件格式: 数据集文件为
sem_text_rel_ranked.csv,位于根目录下。 - 数据结构:
- Text: 句子对,由换行符分隔。
- Score: 语义相关性评分,范围从0到1。
- SourceID: 句子对来源的数据集标识。
- SubsetID: 来源数据集的采样策略标识。
- PairID: 每个句子对的唯一标识,同时指示来源和子集。
语义相关性的重要性
- 应用: 自动确定语义相关性在问答、抄袭检测、文本生成(如个人助理和聊天机器人)和摘要等领域有广泛应用。
- 研究背景: 以往的自然语言处理工作主要集中在语义相似性(语义相关性的一个小子集),因为缺乏相关数据集。本数据集是第一个手动注释的句子-句子语义相关性数据集。
注释方法
- 比较注释: 使用比较注释方法,其中两个或多个项目一起呈现,注释者需要确定哪个在感兴趣的度量上更大。
- 最佳最差缩放: 使用最佳最差缩放方法,已被证明在其他NLP任务中能以较少的注释产生可靠的分数。
引用信息
-
引用格式:
@inproceedings{abdalla2023makes, title={What Makes Sentences Semantically Related: A Textual Relatedness Dataset and Empirical Study}, author={Abdalla, Mohamed and Vishnubhotla, Krishnapriya and Mohammad, Saif M.}, year={2023}, address = {Dubrovnik, Croatia}, publisher = "Association for Computational Linguistics", booktitle = "Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume" }
创建者
- 主要贡献者:
- Mohamed Abdalla (University of Toronto)
- Krishnapriya Vishnubhotla (University of Toronto)
- Saif M. Mohammad (National Research Council Canada)
- 联系方式:
- msa@cs.toronto.edu
- vkpriya@cs.toronto.edu
- saif.mohammad@nrc-cnrc.gc.ca



