five

ruanchaves/porsimplessent

收藏
Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/porsimplessent
下载链接
链接失效反馈
官方服务:
资源简介:
PorSimplesSent是一个葡萄牙语句子对齐对和三句子组合的语料库,旨在研究葡萄牙语句子的可读性评估。该数据集包含4,968对句子和1,141组三句子,结合了PorSimples语料库的三个级别:原始、自然和强简化。数据集可用于句子对分类、句子检索和可读性评估等任务。数据集支持句子对分类任务,用于判断一个句子是否比另一个句子更简单或两者复杂度相同。数据集结构包括句子对、标签、生产ID、简化级别、是否更改、是否分割等字段。数据集分为训练、验证和测试三个子集。

PorSimplesSent是一个葡萄牙语句子对齐对和三句子组合的语料库,旨在研究葡萄牙语句子的可读性评估。该数据集包含4,968对句子和1,141组三句子,结合了PorSimples语料库的三个级别:原始、自然和强简化。数据集可用于句子对分类、句子检索和可读性评估等任务。数据集支持句子对分类任务,用于判断一个句子是否比另一个句子更简单或两者复杂度相同。数据集结构包括句子对、标签、生产ID、简化级别、是否更改、是否分割等字段。数据集分为训练、验证和测试三个子集。
提供机构:
ruanchaves
原始信息汇总

数据集概述

名称: PorSimplesSent

描述: PorSimplesSent是一个葡萄牙语句子对和三元组的数据集,用于研究葡萄牙语句子的可读性评估。该数据集包含4,968对和1,141个三元组句子,涵盖PorSimples数据集的三个级别:原始、自然和强。

语言: 葡萄牙语

大小: 1K<n<10K

数据集结构

数据实例

  • sentence1: 字符串,句子对中的第一个句子。
  • sentence2: 字符串,句子对中的第二个句子。
  • label: 整数,表示两个句子之间的关系,0表示sentence1更简单,1表示两者复杂度相同,2表示sentence2更简单。
  • production_id: 整数,句子对的唯一标识符。
  • level: 字符串,表示两个句子之间的简化级别,包括ORI->NAT, NAT->STR, ORI->STR。
  • changed: 字符串,表示句子是否在简化过程中被改变,S表示改变,N表示未改变。
  • split: 字符串,表示句子是否在此简化级别被分割,S表示分割,N表示未分割。
  • sentence_text_from: 字符串,源句子的原始文本。
  • sentence_text_to: 字符串,目标句子的原始文本。

数据分割

  • 训练集: 4,976个实例
  • 验证集: 1,446个实例
  • 测试集: 1,697个实例

支持的任务

  • sentence-pair-classification: 用于训练模型判断一个句子是否比另一个句子更简单,或两者复杂度相同。

许可证

  • CC BY 4.0: 数据集发布于CC BY 4.0许可证下。

引用信息

bibtex @inproceedings{leal2018pss, author = {Sidney Evaldo Leal and Magali Sanches Duran and Sandra Maria Aluíso}, title = {A Nontrivial Sentence Corpus for the Task of Sentence Readability Assessment in Portuguese}, booktitle = {Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018)}, year = {2018}, pages = {401-413}, month = {August}, date = {20-26}, address = {Santa Fe, New Mexico, USA}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作