five

shibing624/snli-zh

收藏
Hugging Face2023-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/snli-zh
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是中文SNLI和MultiNLI数据集的翻译版本,源自英文的SNLI和MultiNLI数据集。数据集主要用于中文文本匹配任务和文本相似度计算。数据集中包含三个字段:sentence1、sentence2和label,其中label表示句子之间的关系,包括entailment(0)、neutral(1)和contradiction(2)。数据集的大小为54 MB,包含419,402条数据。数据集的语言为简体中文,适用于自然语言推理和语义相似度评分等任务。

该数据集是中文SNLI和MultiNLI数据集的翻译版本,源自英文的SNLI和MultiNLI数据集。数据集主要用于中文文本匹配任务和文本相似度计算。数据集中包含三个字段:sentence1、sentence2和label,其中label表示句子之间的关系,包括entailment(0)、neutral(1)和contradiction(2)。数据集的大小为54 MB,包含419,402条数据。数据集的语言为简体中文,适用于自然语言推理和语义相似度评分等任务。
提供机构:
shibing624
原始信息汇总

数据集卡片 SNLI_zh

数据集描述

数据集摘要

中文SNLI和MultiNLI数据集,翻译自英文SNLIMultiNLI

支持的任务和排行榜

支持中文文本匹配任务,文本相似度计算等相关任务。

排行榜: NLI_zh leaderboard

语言

数据集均是简体中文文本。

数据集结构

数据实例

一个train示例如下:

sentence1 sentence2 gold_label 是的,我想一个洞穴也会有这样的问题 我认为洞穴可能会有更严重的问题。 neutral 几周前我带他和一个朋友去看幼儿园警察 我还没看过幼儿园警察,但他看了。 contradiction 航空旅行的扩张开始了大众旅游的时代,希腊和爱琴海群岛成为北欧人逃离潮湿凉爽的夏天的令人兴奋的目的地。 航空旅行的扩大开始了许多旅游业的发展。 entailment

数据字段

所有分割的数据字段相同:

  • sentence1: 字符串特征。
  • sentence2: 字符串特征。
  • label: 分类标签,可能的值包括entailment(0), neutral(1), contradiction(2)。注意:此数据集0表示相似,2表示不相似。

数据分割

移除None和len(text) < 1的数据后: shell $ wc -l ChineseTextualInference-train.txt 419402 total

数据集创建

策划理由

作为中文SNLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。

源数据

初始数据收集和规范化

源语言生产者

数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。

注释

注释过程

注释者

原作者。

个人和敏感信息

使用数据集的考虑

数据集的社会影响

此数据集作为评估文本表示系统的基准,特别是在给定上下文中预测真值条件的任务中。

讨论偏差

其他已知限制

附加信息

数据集策展人

许可信息

用于学术研究。

贡献

shibing624 添加此数据集。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作