five

Solshine/Portuguese-English_MPC_for_NLP_UNCLEANED

收藏
Hugging Face2023-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Solshine/Portuguese-English_MPC_for_NLP_UNCLEANED
下载链接
链接失效反馈
官方服务:
资源简介:
English-Portuguese Multilingual Parallel Corpus (MPC)是一个精心策划的英语和葡萄牙语平行文本对集合,旨在通过提供高质量的平行文本对,促进自然语言处理(NLP)工具的开发,特别是针对巴西和亚马逊雨林的边缘化土著社区。该数据集通过对话Bard和其他来源收集,并经过预处理和对齐,以确保文本对的平行性。数据集包含多种注释类型,如G3注释、B-标签、SRL注释、依存解析注释和POS标记注释,但大部分数据未清理,可能存在不一致和错误。
提供机构:
Solshine
原始信息汇总

数据集概述

数据集名称

Solshine/Portuguese-English-Translation-and-NLP-trainingdata-UNCLEANED

数据集描述

该数据集是一个英葡双语平行语料库(MPC),旨在通过提供高质量的平行文本对,促进自然语言处理(NLP)工具的发展,特别是机器翻译系统。该语料库特别关注于边缘化土著社区,尤其是巴西和亚马逊雨林地区的社区,以帮助他们更好地参与数字时代。

数据集目的

  • 语言保存与复兴:通过提供葡英翻译基准,促进土著语言到葡萄牙语的翻译工具开发。
  • 数字领域赋能:使土著社区能够使用NLP工具访问在线资源,参与社交媒体,并以母语或葡萄牙语获取信息。
  • 促进跨文化理解:通过改善土著社区与外界的沟通,帮助弥合文化鸿沟,促进相互理解。

数据集来源

数据集通过与Bard的对话和其他来源收集。Bard能够理解和生成人类语言,确保翻译的准确性和自然性。数据经过仔细的预处理和校准,确保英葡句子真正平行。

数据集内容

数据集包括以下注释:

  • G3注释:表示一般实体。
  • B-标签:表示特定类型的实体(如地点、时间)。
  • SRL注释:表示句子成分的语义角色(如主题、代理、患者、目标)。
  • 依存句法分析注释:表示句子中单词之间的语法关系。
  • 词性标注注释:表示每个单词的词性(如名词、动词、形容词)。

数据集使用

数据集主要用于训练机器翻译系统、文本摘要工具和情感分析模型。此外,它还可用于研究英葡语言关系和开发新的NLP算法。

注意事项

数据集大部分未经清洗,应在使用时注意其可能的不一致性和小错误。数据集应被视为有用,但需理解其潜在的错误或遗漏。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作