five

Solshine/Portuguese-English-Vocab-PartiallyTransformed

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Solshine/Portuguese-English-Vocab-PartiallyTransformed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过2000个葡萄牙语-英语翻译对,这些翻译对可以是单词、句子或带有定义的单词。数据集还包括自动生成的G3注释、B-标签、SRL注释、依存解析注释和POS标签注释,这些注释是通过Google Bard在2023年11月28日生成的。数据集的主要目的是通过提供高质量的平行语料库来促进自然语言处理(NLP)的发展,特别是针对巴西和亚马逊雨林的边缘化土著社区。数据集的目标是帮助开发更强大的机器翻译系统,并丰富葡萄牙语资源,从而支持土著社区的语言保存、数字参与和文化交流。

该数据集包含超过2000个葡萄牙语-英语翻译对,这些翻译对可以是单词、句子或带有定义的单词。数据集还包括自动生成的G3注释、B-标签、SRL注释、依存解析注释和POS标签注释,这些注释是通过Google Bard在2023年11月28日生成的。数据集的主要目的是通过提供高质量的平行语料库来促进自然语言处理(NLP)的发展,特别是针对巴西和亚马逊雨林的边缘化土著社区。数据集的目标是帮助开发更强大的机器翻译系统,并丰富葡萄牙语资源,从而支持土著社区的语言保存、数字参与和文化交流。
提供机构:
Solshine
原始信息汇总

数据集概述

数据集描述

该数据集包含超过2,000个葡萄牙语-英语翻译对,包括单词、句子或带有定义的单词的翻译对,以及通常由Google Bard自动生成的G3注释、B-标签、SRL注释、依存句法分析注释和词性标注注释。

数据集用途

推荐用于微调较小的模型,如12B、7B或3B模型,以创建一个基本的基准,用于民主化葡萄牙语用户的访问,或用于训练或微调更大模型时的训练数据集合。

数据集结构

  • G3注释:指示一般实体。
  • B-标签:指示特定类型的实体(例如,B-Location, B-Time)。
  • SRL注释:指示句子中成分的语义角色(例如,B-Theme, B-Agent, B-Patient, B-Goal)。
  • 依存句法分析注释:指示句子中单词之间的语法关系。
  • 词性标注注释:指示句子中每个单词的词性(例如,N表示名词,V表示动词,A表示形容词)。

数据集来源

数据主要通过向Google Bard提出结构化问题生成,生成查询可以在各个小表格的标题名称中找到。数据生成时,提示指令包括了前一段数据结构解释,这可能导致从NLP角度看,句子或单词的数据更有用,但也存在更多不一致和轻微错误。

数据集注意事项

数据大部分未经清洗,应在使用时理解其主要未经清洗且来自各种来源。数据在生成和上传到数据集时,已经通过Bard的防护栏和仔细观察数据(拒绝明显错误生成)进行了过滤和最小化处理。数据集中的一些表格或观察结果可能缺少某些字段的条目,特别是词性标注注释和依存句法分析注释,通常是由于达到Bard公共浏览器版本的数据限制。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作