five

jcblaise/newsph_nli

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jcblaise/newsph_nli
下载链接
链接失效反馈
官方服务:
资源简介:
NewsPH NLI数据集是首个针对低资源菲律宾语(Tagalog)的句子蕴含任务基准数据集。该数据集通过利用新闻文章的结构构建,包含60万对前提-假设对,分为训练集、验证集和测试集,比例为70-15-15。数据集的特征包括前提(premise)、假设(hypothesis)和标签(label)。数据集的创建者来自De La Salle University和University of the Philippines。

NewsPH NLI数据集是首个针对低资源菲律宾语(Tagalog)的句子蕴含任务基准数据集。该数据集通过利用新闻文章的结构构建,包含60万对前提-假设对,分为训练集、验证集和测试集,比例为70-15-15。数据集的特征包括前提(premise)、假设(hypothesis)和标签(label)。数据集的创建者来自De La Salle University和University of the Philippines。
提供机构:
jcblaise
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: NewsPH NLI
  • 数据集简介: 首个针对低资源菲律宾语的句子蕴含基准数据集。通过利用新闻文章的结构构建,包含600,000个前提-假设对,按照70-15-15的比例分为训练、验证和测试集。

支持的任务和排行榜

  • 任务类别: 文本分类
  • 任务ID: 自然语言推理

语言

  • 语言: 菲律宾语(Tagalog)

数据集结构

数据实例

json { "premise": "Alam ba ninyo ang ginawa ni Erap na noon ay lasing na lasing na rin?", "hypothesis": "Ininom niya ang alak na pinagpulbusan!", "label": "0" }

数据字段

  • premise: 前提,数据类型为字符串
  • hypothesis: 假设,数据类型为字符串
  • label: 标签,数据类型为类别标签,包含两个类别:0 和 1

数据分割

  • 训练集: 420,000个样本,154,510,599字节
  • 测试集: 9,000个样本,3,283,665字节
  • 验证集: 90,000个样本,33,015,530字节

数据集创建

策划理由

使用新闻文章自动创建NLI基准数据集的原因有两个:首先,新闻文章通常使用单句段落,每个段落仅包含一个句子。其次,新闻文章遵循“倒金字塔”结构,每个后续段落都建立在前提之上,最重要的信息位于顶部,最不重要的信息位于底部。

源数据

  • 数据收集和规范化: 从所有主要的菲律宾新闻网站在线抓取新闻文章,共收集了229,571篇新闻文章,并进行了轻度预处理以去除多余的Unicode字符并纠正轻微的拼写错误。

注释

  • 注释者: Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco 和 Charibeth Cheng

使用数据的注意事项

数据集的社交影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

其他信息

数据集策展人

  • 策展人: Jan Christian Blaise Cruz

许可信息

[更多信息需补充]

引用信息

plaintext @article{cruz2020investigating, title={Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation}, author={Jan Christian Blaise Cruz and Jose Kristian Resabal and James Lin and Dan John Velasco and Charibeth Cheng}, journal={arXiv preprint arXiv:2010.11574}, year={2020} }

贡献

感谢 @anaerobeth 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作