中文成语语义推理数据集(CINLID)

千言数据集2024-05-15 收录

下载链接：

https://www.luge.ai/#/luge/dataDetail?id=39

下载链接

链接失效反馈

官方服务：

资源简介：

计算词/词组、句子、段落和文档之间的语义相似性（STS，Semantic similarity of text）在自然语言处理和计算语言学中起着重要作用，是一个非常重要的任务。语义相似性中的条目（词、短语、句等）之间的距离概念是基于其意义或语义内容的相似性，而不是词汇学的相似性。基于字面含义的“望文生义”在做NLP相关任务时很容易出现问题，如传统测度文本相似度的方法经常会把“目不识丁”和“目中无人”的相似度算得很高。但它们的语义明显是不相关的；又比如“孤芳自赏”和“师心自用”都有“自负、骄傲”的含义，语义相似度较高，但一般传统的文本相似度计算方法很难将它们的内在语义相似性准确的捕捉到。为了得到良好的语句表示，我们需要一个能编码基础语义关系的语料，而且字面重叠的情况要少，让机器学习的难度更大些，以便学到更多有用的语义信息。因此，我们基于同一关系、包含关系、重叠关系、分离关系这4种基本的语义类别构建了中文成语语义推理数据集（Chinese Idioms Natural Language Inference Dataset）。