Linguistic Datasets for Portuguese

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/EticaAI/linguistic-datasets-portuguese

下载链接

链接失效反馈

官方服务：

资源简介：

葡萄牙语语言数据集列表，包含灵活的许可证：数据库、词汇列表、同义词、反义词、主题词典、同义词库、链接数据、语义、本体和知识表示。

A list of Portuguese language datasets, encompassing flexible licenses: databases, lexical lists, synonyms, antonyms, thematic dictionaries, thesauri, linked data, semantics, ontologies, and knowledge representation.

创建时间：

2018-05-18

原始信息汇总

数据集概述

数据集名称

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

数据集内容

数据库
单词列表
同义词
反义词
主题词典
词汇
链接数据
语义
本体论
知识表示

数据集列表

数据集名称	状态	许可证	标签	描述
languagetool-org: regras PT	活跃	LGPLv2.1	多种标签, pt-AO, pt-BR pt-MZ e pt-PT	支持超过25种语言的语法和风格检查工具
languagetool-org: falsos cognatos	活跃	LGPLv2.1	假同源词, 翻译	假同源词（英语：false friends）是看似相同但实际上意义不同的词汇，对文本翻译非常重要
openWordnet-PT	活跃	CC-BY-4.0	wordnet, owl, rdf, sparql, pt-BR	开放的巴西Wordnet
Stopwords Portuguese (PT)	2016-10-10	多种	停用词, 空词	包含560个独特术语的停用词列表
VERO-pt-BR	2013-12-17	LGPLv3, MPL	拼写检查, 语法检查, 连字符, libreoffice, openoffice, pt-BR	LibreOffice拼写检查器的非官方镜像数据库
DicSin pt-BR	2010-05-28	GPLv2?	词典, 同义词, 反义词, pt-BR	葡萄牙语巴西语的同义词和反义词词典
br.ispell	2003-03-25	GPLv2	词典, 拼写检查, ispell, aspell, myspell, pt-BR	br.ispell的非官方镜像数据

愿望列表

标签	灵感来源	描述
afinn-111, analise-de-sentimento	AFINN-111, EN	基于葡萄牙语方言的情感分析词列表，灵感来源于A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo	MIT, emojis, bullying	考虑使用表情符号和其他特定书写风格来刺激情感分析（或识别讽刺的模式），可能有助于未来研究减少语言攻击或仇恨言论的误报
termos-ofensivos, palavrao	Wikipedia, HateBase PT	包含地区、类型和强度分类的攻击性词汇列表，可用于简单的单词列表导出（有助于垃圾邮件过滤），并可采用用户可更新的协作方法
termos-ofensivos, discurso-de-odio	Wikipedia, HateBase PT	帮助识别仇恨言论的特定数据集
weasel-word	languagetool weasel words	包含回避性词汇的列表，可能对政治演讲分析有趣

数据集目标

该项目旨在列出依赖于语言和当地文化的知识表示来源，这些不能被直接导入，需要特别关注和跨学科的方法，并且理想情况下应已准备好并可接受验证。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要依赖于对葡萄牙语语言资源的系统性整理与分类。通过收集和整理多种语言数据，如词汇表、同义词、反义词、主题词典、词库、语义数据、本体论和知识表示等，构建了一个多层次的语言资源库。这些数据来源于多个开源项目，如languagetool-org、openWordnet-PT等，确保了数据的质量和多样性。此外，数据集的构建过程中还考虑了不同葡萄牙语方言（如巴西葡萄牙语、安哥拉葡萄牙语等）的特殊性，确保了数据的全面性和适用性。

特点

该数据集的特点在于其多样性和灵活性。首先，数据集涵盖了多种语言学领域，包括词汇、语义、语法、翻译等，能够满足不同研究需求。其次，数据集采用了灵活的许可证（如LGPL、CC-BY等），允许用户在不同场景下自由使用和修改。此外，数据集还特别关注了葡萄牙语的区域差异，提供了针对不同方言的资源，增强了其在实际应用中的适应性。

使用方法

该数据集的使用方法灵活多样，适用于多种语言学研究和应用场景。用户可以根据需求选择不同的数据子集，如词汇表、同义词、反义词等，进行文本分析、语法检查、翻译优化等任务。数据集支持多种格式，如XML、RDF、OWL等，便于与其他工具和平台集成。此外，数据集的开源性质使得用户可以自由下载、修改和分享数据，促进了语言学研究的开放性和协作性。

背景与挑战

背景概述

葡萄牙语语言数据集（Linguistic Datasets for Portuguese）是由Emerson Rocha主导的项目，旨在为葡萄牙语（包括pt-AO、pt-BR、pt-MZ和pt-PT）提供一系列灵活许可的语言数据集。该项目受到自由开源软件（FOSS）精神的启发，旨在解决因依赖特定语言和文化背景而无法直接导入的知识表示问题。数据集涵盖了从词汇列表、同义词、反义词、主题词典、语义网络到知识表示等多个领域，为语言学研究和自然语言处理提供了宝贵的资源。

当前挑战

构建葡萄牙语语言数据集面临的主要挑战包括：1) 数据集的精细化和专业化需求，这些数据集通常需要大量的人工干预和专业知识，而非简单的数据收集；2) 数据集的多样性和复杂性，涉及从语法检查到情感分析等多个领域，要求跨学科的合作和深入研究；3) 数据集的可用性和合法性问题，部分数据集的缺乏或使用不当可能导致质量下降或技术创新的阻碍。此外，如何有效推动政府和学术机构开发和维护这些数据集也是一个亟待解决的问题。

常用场景

经典使用场景

葡萄牙语语言数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是在文本分析、语义理解和语言模型构建方面。这些数据集包括词库、同义词、反义词、主题词典、语义网络等，为语言学家、计算机科学家和数据科学家提供了丰富的资源，用于开发和验证各种语言处理工具和技术。

实际应用

在实际应用中，葡萄牙语语言数据集被广泛用于开发智能助手、内容过滤系统、教育软件和语言学习平台。例如，这些数据集可以用于构建拼写检查器、语法纠正工具和自动翻译系统，帮助用户在日常交流和专业写作中提高语言表达的准确性和效率。

衍生相关工作

基于这些数据集，许多相关工作得以展开，包括开发新的语言模型、改进现有的自然语言处理算法，以及创建多语言语义网络。例如，OpenWordnet-PT项目通过构建开放的巴西葡萄牙语Wordnet，为语义分析和知识表示提供了新的工具和方法，进一步推动了葡萄牙语在人工智能领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集