501万组汉藏平行语料数据

数据堂2024-05-23 收录

下载链接：

https://www.datatang.com/dataset/1236

下载链接

链接失效反馈

官方服务：

资源简介：

汉藏平行语料数据包括501万组汉语、藏语平行互译语料，数据存储格式为txt文档。已进行数据清洗脱敏质检，可作为文本类数据分析的基础语料库，用于机器翻译等领域。

The Sino-Tibetan parallel corpus contains 5.01 million pairs of mutually translated Chinese and Tibetan texts. The data is stored in TXT document format. Data cleaning, de-identification and quality inspection have been conducted on the corpus. It can serve as a foundational corpus for text data analysis and be applied in fields such as machine translation.

提供机构：

数据堂

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含501万组汉藏平行语料，格式为txt，已清洗脱敏质检，适用于机器翻译，汉语平均句长20.8个字符。

以上内容由遇见数据集搜集并总结生成