ruanchaves/porsimplessent
收藏Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/porsimplessent
下载链接
链接失效反馈官方服务:
资源简介:
PorSimplesSent是一个葡萄牙语句子对齐对和三句子组合的语料库,旨在研究葡萄牙语句子的可读性评估。该数据集包含4,968对句子和1,141组三句子,结合了PorSimples语料库的三个级别:原始、自然和强简化。数据集可用于句子对分类、句子检索和可读性评估等任务。数据集支持句子对分类任务,用于判断一个句子是否比另一个句子更简单或两者复杂度相同。数据集结构包括句子对、标签、生产ID、简化级别、是否更改、是否分割等字段。数据集分为训练、验证和测试三个子集。
PorSimplesSent是一个葡萄牙语句子对齐对和三句子组合的语料库,旨在研究葡萄牙语句子的可读性评估。该数据集包含4,968对句子和1,141组三句子,结合了PorSimples语料库的三个级别:原始、自然和强简化。数据集可用于句子对分类、句子检索和可读性评估等任务。数据集支持句子对分类任务,用于判断一个句子是否比另一个句子更简单或两者复杂度相同。数据集结构包括句子对、标签、生产ID、简化级别、是否更改、是否分割等字段。数据集分为训练、验证和测试三个子集。
提供机构:
ruanchaves
原始信息汇总
数据集概述
名称: PorSimplesSent
描述: PorSimplesSent是一个葡萄牙语句子对和三元组的数据集,用于研究葡萄牙语句子的可读性评估。该数据集包含4,968对和1,141个三元组句子,涵盖PorSimples数据集的三个级别:原始、自然和强。
语言: 葡萄牙语
大小: 1K<n<10K
数据集结构
数据实例
- sentence1: 字符串,句子对中的第一个句子。
- sentence2: 字符串,句子对中的第二个句子。
- label: 整数,表示两个句子之间的关系,0表示sentence1更简单,1表示两者复杂度相同,2表示sentence2更简单。
- production_id: 整数,句子对的唯一标识符。
- level: 字符串,表示两个句子之间的简化级别,包括ORI->NAT, NAT->STR, ORI->STR。
- changed: 字符串,表示句子是否在简化过程中被改变,S表示改变,N表示未改变。
- split: 字符串,表示句子是否在此简化级别被分割,S表示分割,N表示未分割。
- sentence_text_from: 字符串,源句子的原始文本。
- sentence_text_to: 字符串,目标句子的原始文本。
数据分割
- 训练集: 4,976个实例
- 验证集: 1,446个实例
- 测试集: 1,697个实例
支持的任务
- sentence-pair-classification: 用于训练模型判断一个句子是否比另一个句子更简单,或两者复杂度相同。
许可证
- CC BY 4.0: 数据集发布于CC BY 4.0许可证下。
引用信息
bibtex @inproceedings{leal2018pss, author = {Sidney Evaldo Leal and Magali Sanches Duran and Sandra Maria Aluíso}, title = {A Nontrivial Sentence Corpus for the Task of Sentence Readability Assessment in Portuguese}, booktitle = {Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018)}, year = {2018}, pages = {401-413}, month = {August}, date = {20-26}, address = {Santa Fe, New Mexico, USA}, }



