Linguistic Datasets for Portuguese

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/fititnt/linguistic-datasets-portuguese

下载链接

链接失效反馈

官方服务：

资源简介：

葡萄牙语语言数据集列表，包含灵活许可证的数据库、词汇列表、同义词、反义词、主题词典、词汇表、链接数据、语义、本体和知识表示。

A list of Portuguese language datasets, encompassing databases with flexible licenses, vocabulary lists, synonyms, antonyms, thematic dictionaries, glossaries, linked data, semantics, ontologies, and knowledge representation.

创建时间：

2018-05-18

原始信息汇总

数据集概述

数据集名称

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

数据集内容

该数据集包含多种葡萄牙语语言资源，包括但不限于：

数据库
词汇列表
同义词
反义词
主题词典
分类词典
关联数据
语义数据
本体论
知识表示

数据集列表

数据集名称	状态	许可证	标签	描述
languagetool-org: regras PT	活跃	LGPLv2.1	多种标签, pt-AO, pt-BR pt-MZ e pt-PT	languagetool-org 是一个支持超过25种语言的语法和风格检查工具
languagetool-org: falsos cognatos	活跃	LGPLv2.1	falsos-cognatos, traducao	假同源词（英语：false friends）是指看起来相似但实际上不同的词汇，对文本翻译非常重要
openWordnet-PT	活跃	CC-BY-4.0	wordnet, owl, rdf, sparql, pt-BR	OpenWordnet-PT: 一个开放的巴西Wordnet
Stopwords Portuguese (PT)	2016-10-10	多种	stopwords, palavras-vazias	包含560个独特术语的停用词列表
VERO-pt-BR	2013-12-17	LGPLv3, MPL	verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR	VERO（VERificador Ortografico do LibreOffice）的非官方镜像数据库
DicSin pt-BR	2010-05-28	GPLv2?	dicionario, sinonimo, antonimo, pt-BR	DicSin: 葡萄牙语巴西语的同义词和反义词词典
br.ispell	2003-03-25	GPLv2	dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR	br.ispell的非官方镜像数据

愿望列表

标签	灵感来源	描述
afinn-111, analise-de-sentimento	AFINN-111, EN	基于葡萄牙语方言的情感分析词列表，灵感来源于A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo	MIT, emojis, bullying	考虑使用表情符号和其他特定书写风格来刺激情感分析（或识别讽刺的模式），可能有助于减少语言攻击或仇恨言论的误报
termos-ofensivos, palavrao	Wikipedia, HateBase PT	包含地区、类型和强度的低俗词汇和攻击性词汇列表，支持简单的词汇导出，适用于垃圾邮件过滤
termos-ofensivos, discurso-de-odio	Wikipedia, HateBase PT	帮助识别仇恨言论的特定数据集
weasel-word	languagetool weasel words	包含回避性词汇的列表，可能对政治演讲分析有兴趣

许可证

所有数据集均采用灵活的许可证，允许用户使用。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式体现了对葡萄牙语语言资源的深度挖掘与整理。通过收集和整理多种语言学数据，如词汇表、同义词、反义词、主题词典、词库、语义网络、本体论及知识表示等，数据集涵盖了葡萄牙语的多个变体（如pt-AO, pt-BR, pt-MZ, pt-PT）。这些数据来源于多个开源项目，如languagetool-org、openWordnet-PT等，且多数数据集采用了灵活的开源许可证，确保了数据的广泛可用性。

特点

该数据集的特点在于其多样性和专业性。它不仅包含了基础的词汇和语法数据，还涵盖了高级语言学概念，如语义网络和本体论，适用于从基础语言处理到高级知识表示的多种应用场景。此外，数据集的灵活许可证策略使得研究者和开发者能够自由使用和修改数据，促进了语言技术的创新和发展。

使用方法

该数据集的使用方法灵活多样，适用于多种语言学研究和应用场景。用户可以根据需求选择不同的数据子集，如词汇表、同义词、反义词等，进行自然语言处理、文本分析、机器翻译等任务。数据集的开放性和灵活性使得它可以轻松集成到各种语言处理工具和系统中，为语言学研究和应用提供了丰富的资源支持。

背景与挑战

背景概述

葡萄牙语语言数据集（Linguistic Datasets for Portuguese）是由Emerson Rocha主导的项目，旨在为葡萄牙语（包括巴西、安哥拉、莫桑比克和葡萄牙等不同方言）提供一系列灵活许可的语言数据集。该项目受到自由开源软件（FOSS）精神的启发，旨在解决因语言和文化差异而无法直接导入的知识表示问题。数据集涵盖了从词汇表、同义词、反义词到主题词典、语义网络、本体论和知识表示等多个领域，为语言学研究和自然语言处理提供了宝贵的资源。

当前挑战

构建葡萄牙语语言数据集面临的主要挑战包括：1) 数据集的精细化和专业化需求，这些数据集通常需要大量的人工干预和专业知识，而非简单的数据收集；2) 数据集的多样性和复杂性，涉及多个语言变体和文化背景，增加了数据处理的难度；3) 数据集的可用性和合法性问题，部分数据集的缺乏或使用不当可能导致技术创新的障碍。此外，如何有效整合计算机科学与其他社会科学领域的研究，以促进跨学科合作，也是该数据集面临的重要挑战。

常用场景

经典使用场景

葡萄牙语语言数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是在文本分析、语义理解和语言模型构建方面。这些数据集，如词表、同义词、反义词、主题词典和语义网络，为葡萄牙语的文本处理提供了丰富的资源。例如，OpenWordnet-PT数据集可用于构建葡萄牙语的语义网络，而languagetool-org的规则集则可用于语法和风格检查。

实际应用

在实际应用中，葡萄牙语语言数据集被广泛用于开发智能文本处理工具，如拼写检查、语法纠正和自动翻译系统。例如，VERO-pt-BR数据集被用于构建葡萄牙语的拼写检查器，而DicSin数据集则支持同义词和反义词的查询。这些工具在教育、出版和商业通信等领域具有重要应用，极大地提高了文本处理的效率和准确性。

衍生相关工作

基于葡萄牙语语言数据集，许多相关工作得以展开，包括情感分析、文本分类和语义推理等。例如，AFINN-111数据集的衍生工作涉及情感词典的构建，用于分析葡萄牙语文本的情感倾向。此外，languagetool-org的规则集也被广泛用于开发高级文本编辑工具，进一步推动了自然语言处理技术在葡萄牙语环境中的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集