WenetSpeech-Yue
收藏OpenCC(開放中文轉換)数据集概述
简介
OpenCC(Open Chinese Convert,開放中文轉換)是一个开源项目,用于在简体中文、繁体中文和日本新字体(Shinjitai)之间进行转换。该项目支持字符级别和词汇级别的转换,包括字符变体转换以及中国大陆、台湾和香港的地区习惯用词转换。请注意,这不是普通话与粤语等方言之间的翻译工具。
主要特点
- 严格区分「一简对多繁」和「一简对多异」。
- 完全兼容异体字,支持动态替换。
- 严格审校一简对多繁词条,遵循「能分则不合」原则。
- 支持中国大陆、台湾、香港异体字和地区习惯用词转换(例如「裏」与「裡」、「鼠标」与「滑鼠」)。
- 词库和函数库完全分离,允许自由修改、导入和扩展。
安装方式
包管理器
- Debian:https://tracker.debian.org/pkg/opencc
- Ubuntu:https://launchpad.net/ubuntu/+source/opencc
- Fedora:https://packages.fedoraproject.org/pkgs/opencc/opencc/
- Arch Linux:https://archlinux.org/packages/extra/x86_64/opencc/
- macOS:https://formulae.brew.sh/formula/opencc
- Bazel:https://registry.bazel.build/modules/opencc
- Node.js:https://npmjs.org/package/opencc
- Python:https://pypi.org/project/OpenCC/
预编译版本
- Windows (x86_64):https://ci.appveyor.com/api/projects/Carbo/opencc/artifacts/OpenCC.zip?branch=master&job=Environment:%20nodejs_version=none;%20Platform:%20x64
- Windows (x86):https://ci.appveyor.com/api/projects/Carbo/opencc/artifacts/OpenCC.zip?branch=master&job=Environment:%20nodejs_version=none;%20Platform:%20x86
使用方法
在线演示
https://opencc.byvoid.com/(注意:禁止程序化调用)
编程接口示例
Node.js
javascript const OpenCC = require(opencc); const converter = new OpenCC(s2t.json); converter.convertPromise("汉字").then(converted => { console.log(converted); // 漢字 });
Python
python import opencc converter = opencc.OpenCC(s2t.json) converter.convert(汉字) # 漢字
C++
c++ #include "opencc.h" int main() { const opencc::SimpleConverter converter("s2t.json"); converter.Convert("汉字"); // 漢字 return 0; }
C
c #include "opencc.h" int main() { opencc_t opencc = opencc_open("s2t.json"); const char* input = "汉字"; char* converted = opencc_convert_utf8(opencc, input, strlen(input)); // 漢字 opencc_convert_utf8_free(converted); opencc_close(opencc); return 0; }
配置文件
s2t.json:简体中文到繁体中文t2s.json:繁体中文到简体中文s2tw.json:简体中文到台湾正体tw2s.json:台湾正体到简体中文s2hk.json:简体中文到香港繁体hk2s.json:香港繁体到简体中文s2twp.json:简体中文到台湾正体(含台湾常用词汇)tw2sp.json:台湾正体到简体中文(含中国大陆常用词汇)t2tw.json:繁体中文(OpenCC标准)到台湾正体hk2t.json:香港繁体到繁体中文(OpenCC标准)t2hk.json:繁体中文(OpenCC标准)到香港繁体t2jp.json:繁体中文(旧字体)到日文新字体jp2t.json:日文新字体到繁体中文(旧字体)tw2t.json:台湾正体到繁体中文(OpenCC标准)
构建与测试
构建方式
- 使用CMake(Linux、macOS、Windows Visual Studio)
- 使用Bazel
测试命令
- Linux & macOS:
make test - Windows Visual Studio:
test.cmd
基准测试
- 命令:
make benchmark - 包含初始化时间和转换性能测试
使用项目
部分使用OpenCC的项目包括:
- ibus-pinyin
- fcitx
- rimeime
- libgooglepinyin
- ibus-libpinyin
- alfred-chinese-converter
- GoldenDict
许可证
Apache License 2.0
第三方库
- darts-clone(BSD License)
- marisa-trie(BSD License)
- tclap(MIT License)
- rapidjson(MIT License)
- Google Test(BSD License)
版本历史
- 详细变更记录:https://github.com/BYVoid/OpenCC/blob/master/NEWS.md
相关链接
- 项目详细介绍:https://github.com/BYVoid/OpenCC/wiki/%E7%B7%A3%E7%94%B1
- 现代汉语常用简繁一对多字义辨析表:http://ytenx.org/byohlyuk/KienxPyan
贡献者
包括BYVoid、佛振、Peng Huang、LI Daobing等众多开发者(完整列表见README文件)。




