501万组汉藏平行语料数据
收藏数据堂2024-05-23 收录
下载链接:
https://www.datatang.com/dataset/1236
下载链接
链接失效反馈官方服务:
资源简介:
汉藏平行语料数据包括501万组汉语、藏语平行互译语料,数据存储格式为txt文档。已进行数据清洗脱敏质检,可作为文本类数据分析的基础语料库,用于机器翻译等领域。
The Sino-Tibetan parallel corpus contains 5.01 million pairs of mutually translated Chinese and Tibetan texts. The data is stored in TXT document format. Data cleaning, de-identification and quality inspection have been conducted on the corpus. It can serve as a foundational corpus for text data analysis and be applied in fields such as machine translation.
提供机构:
数据堂
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含501万组汉藏平行语料,格式为txt,已清洗脱敏质检,适用于机器翻译,汉语平均句长20.8个字符。
以上内容由遇见数据集搜集并总结生成



