five

Corpus_aligned_sentences_zh-pt

收藏
DataCite Commons2025-09-18 更新2026-04-25 收录
下载链接:
https://figshare.com/articles/dataset/Corpus_aligned_sentences_zh-pt/30157789/1
下载链接
链接失效反馈
官方服务:
资源简介:
O corpus alinhado resulta do alinhamento automático entre os repositórios "Corpus_leis_pt" e "Corpus_leis_zh", utilizando o Bertalign - uma ferramenta de alinhamento multilíngue baseada em embeddings de frases que mapeia as frases semanticamente similares em diferentes idiomas através de um algoritmo de duas etapas com programação dinâmica. O processo gera 100 planilhas Excel estruturadas com frases correspondentes em português e chinês, organizadas na pasta "Corpus_aligned_sentences_zh-pt" seguindo a nomenclatura padronizada "aligned_sentences_Lei_XX-YYYY_zh-pt.xlsx".

本对齐语料库源自"Corpus_leis_pt"与"Corpus_leis_zh"两个语料库的自动对齐,所采用的Bertalign是一款基于句嵌入(sentence embeddings)的多语言对齐工具,该工具通过双阶段动态规划算法,实现不同语言间语义相似句子的跨语言匹配。本流程共生成100份结构化Excel表格,内含葡萄牙语与汉语的对应句对,所有文件均存储于"Corpus_aligned_sentences_zh-pt"文件夹中,且严格遵循标准化命名格式:aligned_sentences_Lei_XX-YYYY_zh-pt.xlsx。
提供机构:
figshare
创建时间:
2025-09-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作