shibing624/snli-zh
收藏Hugging Face2023-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/snli-zh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是中文SNLI和MultiNLI数据集的翻译版本,源自英文的SNLI和MultiNLI数据集。数据集主要用于中文文本匹配任务和文本相似度计算。数据集中包含三个字段:sentence1、sentence2和label,其中label表示句子之间的关系,包括entailment(0)、neutral(1)和contradiction(2)。数据集的大小为54 MB,包含419,402条数据。数据集的语言为简体中文,适用于自然语言推理和语义相似度评分等任务。
该数据集是中文SNLI和MultiNLI数据集的翻译版本,源自英文的SNLI和MultiNLI数据集。数据集主要用于中文文本匹配任务和文本相似度计算。数据集中包含三个字段:sentence1、sentence2和label,其中label表示句子之间的关系,包括entailment(0)、neutral(1)和contradiction(2)。数据集的大小为54 MB,包含419,402条数据。数据集的语言为简体中文,适用于自然语言推理和语义相似度评分等任务。
提供机构:
shibing624
原始信息汇总
数据集卡片 SNLI_zh
数据集描述
- 存储库: Chinese NLI dataset
- 数据集: train data from ChineseTextualInference
- 下载的数据集文件大小: 54 MB
- 磁盘使用总量: 54 MB
数据集摘要
中文SNLI和MultiNLI数据集,翻译自英文SNLI和MultiNLI。
支持的任务和排行榜
支持中文文本匹配任务,文本相似度计算等相关任务。
排行榜: NLI_zh leaderboard
语言
数据集均是简体中文文本。
数据集结构
数据实例
一个train示例如下:
sentence1 sentence2 gold_label 是的,我想一个洞穴也会有这样的问题 我认为洞穴可能会有更严重的问题。 neutral 几周前我带他和一个朋友去看幼儿园警察 我还没看过幼儿园警察,但他看了。 contradiction 航空旅行的扩张开始了大众旅游的时代,希腊和爱琴海群岛成为北欧人逃离潮湿凉爽的夏天的令人兴奋的目的地。 航空旅行的扩大开始了许多旅游业的发展。 entailment
数据字段
所有分割的数据字段相同:
sentence1: 字符串特征。sentence2: 字符串特征。label: 分类标签,可能的值包括entailment(0), neutral(1), contradiction(2)。注意:此数据集0表示相似,2表示不相似。
数据分割
移除None和len(text) < 1的数据后: shell $ wc -l ChineseTextualInference-train.txt 419402 total
数据集创建
策划理由
作为中文SNLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。
源数据
初始数据收集和规范化
源语言生产者
数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。
注释
注释过程
注释者
原作者。
个人和敏感信息
使用数据集的考虑
数据集的社会影响
此数据集作为评估文本表示系统的基准,特别是在给定上下文中预测真值条件的任务中。
讨论偏差
其他已知限制
附加信息
数据集策展人
- liuhuanyong翻译成中文
- shibing624 上传到huggingface的datasets
许可信息
用于学术研究。
贡献
shibing624 添加此数据集。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



