larryvrh/WikiMatrix-v1-Ja_Zh-filtered
收藏Hugging Face2023-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/larryvrh/WikiMatrix-v1-Ja_Zh-filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
dataset_info:
features:
- name: ja
dtype: string
- name: zh
dtype: string
splits:
- name: train
num_bytes: 149036235
num_examples: 690095
download_size: 115870646
dataset_size: 149036235
task_categories:
- translation
language:
- ja
- zh
size_categories:
- 100K<n<1M
---
Filtered and modified version of Japanese/Chinese language pair data from [WikiMatrix v1](https://opus.nlpl.eu/WikiMatrix.php).
Process steps:
1. Basic regex based filtering / length checking to remove abnormal pairs.
2. Semantic similarity filtering with a threshold value of 0.6, based on [sentence-transformers/LaBSE](https://huggingface.co/sentence-transformers/LaBSE).
3. Convert all Traditional Chinese sentences into Simplified Chinese with [zhconv](https://github.com/gumblex/zhconv).
------
经过过滤和修改的日语/中文语言对数据,来自[WikiMatrix v1](https://opus.nlpl.eu/WikiMatrix.php)。
处理步骤:
1. 基本的基于正则表达式的过滤/长度检查,以删除异常对。
2. 基于[sentence-transformers/LaBSE](https://huggingface.co/sentence-transformers/LaBSE)的语义相似性过滤,阈值为0.6。
3. 使用[zhconv](https://github.com/gumblex/zhconv)将所有繁体中文句子转换为简体中文。
------
以下はフィルタリングされ修正された日本語/中国語のペアデータです。データ元は[WikiMatrix v1](https://opus.nlpl.eu/WikiMatrix.php)です。
処理手順:
1. 正規表現に基づくフィルタリング/長さのチェックを行い、異常なペアを削除します。
2. [sentence-transformers/LaBSE](https://huggingface.co/sentence-transformers/LaBSE)に基づくセマンティック類似性フィルタリングを行い、閾値は0.6です。
3. [zhconv](https://github.com/gumblex/zhconv)を使って、すべての繁体字中国語の文を簡体字中国語に変換します。
提供机构:
larryvrh
原始信息汇总
数据集概述
数据集信息
- 特征:
ja: 类型为stringzh: 类型为string
- 分割:
train: 字节数为 149036235,样本数为 690095
- 下载大小: 115870646 字节
- 数据集大小: 149036235 字节
任务类别
- 翻译
语言
- 日语 (ja)
- 中文 (zh)
数据集大小类别
- 100K < n < 1M
处理步骤
- 基于正则表达式的基本过滤和长度检查,以删除异常对。
- 基于
sentence-transformers/LaBSE的语义相似性过滤,阈值为 0.6。 - 使用
zhconv将所有繁体中文句子转换为简体中文。



