hk_content_corpus_mysql
收藏HK Web Text Corpus (MySQL Dump, raw version) 数据集概述
数据集基本信息
- 语言: 香港粤语、繁体中文
- 语言详情: zh-Hant-HK; yue-Hant-HK
- 大小: ~49.2 GB (MySQL), 11.1 GB (7z压缩包)
- 格式: MySQL 转储文件,UTF-8 编码
- 特征:
- mysql_dump_file (二进制)
- 标签: SQL, Hong Kong, diglossia, Cantonese, Traditional Chinese
- 许可证: cc-by-4.0
数据来源与内容
- 来源: 公共网络资源(新闻网站、在线论坛、百科全书和餐厅评论)
- 用途: 用于生成香港内容语料库,研究香港语言建模中的双语现象效果
- 注意事项:
- 数据集包含噪声、重复、HTML标记、爬虫残留和后续在派生语料库版本中被清理/过滤的记录
- 2020年6月30日之后的数据可能因香港国安法生效而产生偏差,需谨慎使用
相关资源
- 已清理版本: https://huggingface.co/datasets/SolarisCipher/hk_content_corpus
- Zenodo存档: https://doi.org/10.5281/zenodo.16875235
- SHA256校验和: b3b7a600ec2e2b5c6ce9ebc1e545712e696c6f6f94b78d0473486609eb7fb854 (解压后的SQL文件)
预期用途
- 预训练或微调AI语言模型
- 语言和社会语言分析
- 文本挖掘研究
引用信息
bibtex @article{Yung2025HKDiglossia, author = {Yung, Yiu Cheong and Lin, Ying-Jia and Kao, Hung-Yu}, title = {Exploring the Effectiveness of Pre-training Language Models with Incorporation of Diglossia for Hong Kong Content}, journal = {ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP)}, volume = {24}, number = {7}, pages = {71:1--71:16}, year = {2025}, publisher = {Association for Computing Machinery}, doi = {10.1145/3744341} }
@dataset{yung_2025_16875235, author = {Yung, Yiu Cheong}, title = {HK Web Text Corpus (MySQL Dump, raw version)}, month = aug, year = 2025, publisher = {Zenodo}, doi = {10.5281/zenodo.16875235}, url = {https://doi.org/10.5281/zenodo.16875235}, }




