Solshine/Portuguese-English_MPC_for_NLP_UNCLEANED

Name: Solshine/Portuguese-English_MPC_for_NLP_UNCLEANED
Creator: Solshine
Published: 2023-12-03 08:16:50
License: 暂无描述

Hugging Face2023-12-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Solshine/Portuguese-English_MPC_for_NLP_UNCLEANED

下载链接

链接失效反馈

官方服务：

资源简介：

English-Portuguese Multilingual Parallel Corpus (MPC)是一个精心策划的英语和葡萄牙语平行文本对集合，旨在通过提供高质量的平行文本对，促进自然语言处理（NLP）工具的开发，特别是针对巴西和亚马逊雨林的边缘化土著社区。该数据集通过对话Bard和其他来源收集，并经过预处理和对齐，以确保文本对的平行性。数据集包含多种注释类型，如G3注释、B-标签、SRL注释、依存解析注释和POS标记注释，但大部分数据未清理，可能存在不一致和错误。

提供机构：

Solshine

原始信息汇总

数据集概述

数据集名称

Solshine/Portuguese-English-Translation-and-NLP-trainingdata-UNCLEANED

数据集描述

该数据集是一个英葡双语平行语料库（MPC），旨在通过提供高质量的平行文本对，促进自然语言处理（NLP）工具的发展，特别是机器翻译系统。该语料库特别关注于边缘化土著社区，尤其是巴西和亚马逊雨林地区的社区，以帮助他们更好地参与数字时代。

数据集目的

语言保存与复兴：通过提供葡英翻译基准，促进土著语言到葡萄牙语的翻译工具开发。
数字领域赋能：使土著社区能够使用NLP工具访问在线资源，参与社交媒体，并以母语或葡萄牙语获取信息。
促进跨文化理解：通过改善土著社区与外界的沟通，帮助弥合文化鸿沟，促进相互理解。

数据集来源

数据集通过与Bard的对话和其他来源收集。Bard能够理解和生成人类语言，确保翻译的准确性和自然性。数据经过仔细的预处理和校准，确保英葡句子真正平行。

数据集内容

数据集包括以下注释：

G3注释：表示一般实体。
B-标签：表示特定类型的实体（如地点、时间）。
SRL注释：表示句子成分的语义角色（如主题、代理、患者、目标）。
依存句法分析注释：表示句子中单词之间的语法关系。
词性标注注释：表示每个单词的词性（如名词、动词、形容词）。

数据集使用

数据集主要用于训练机器翻译系统、文本摘要工具和情感分析模型。此外，它还可用于研究英葡语言关系和开发新的NLP算法。

注意事项

数据集大部分未经清洗，应在使用时注意其可能的不一致性和小错误。数据集应被视为有用，但需理解其潜在的错误或遗漏。

5,000+

优质数据集

54 个

任务类型

进入经典数据集