hk_content_corpus_mysql

Hugging Face2025-08-16 更新2025-08-17 收录

下载链接：

https://huggingface.co/datasets/SolarisCipher/hk_content_corpus_mysql

下载链接

链接失效反馈

官方服务：

资源简介：

HK Web Text Corpus (MySQL Dump, raw version)数据集是一个大规模的原始文本语料库，主要收集自香港的公共网络资源，包括新闻网站、在线论坛、百科全书和餐厅评论等，专注于香港粤语和繁体中文的使用。这个MySQL数据库用于存档和再现性目的，可能包含噪声、重复内容、HTML标记、爬虫残留以及后续清理/过滤的记录。数据集大小约为49.2 GB (MySQL)和11.1 GB (7z压缩文件)。

创建时间：

2025-08-15

原始信息汇总

HK Web Text Corpus (MySQL Dump, raw version) 数据集概述

数据集基本信息

语言: 香港粤语、繁体中文
语言详情: zh-Hant-HK; yue-Hant-HK
大小: ~49.2 GB (MySQL), 11.1 GB (7z压缩包)
格式: MySQL 转储文件，UTF-8 编码
特征:
- mysql_dump_file (二进制)
标签: SQL, Hong Kong, diglossia, Cantonese, Traditional Chinese
许可证: cc-by-4.0

数据来源与内容

来源: 公共网络资源（新闻网站、在线论坛、百科全书和餐厅评论）
用途: 用于生成香港内容语料库，研究香港语言建模中的双语现象效果
注意事项:
- 数据集包含噪声、重复、HTML标记、爬虫残留和后续在派生语料库版本中被清理/过滤的记录
- 2020年6月30日之后的数据可能因香港国安法生效而产生偏差，需谨慎使用

预期用途

预训练或微调AI语言模型
语言和社会语言分析
文本挖掘研究

引用信息

bibtex @article{Yung2025HKDiglossia, author = {Yung, Yiu Cheong and Lin, Ying-Jia and Kao, Hung-Yu}, title = {Exploring the Effectiveness of Pre-training Language Models with Incorporation of Diglossia for Hong Kong Content}, journal = {ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP)}, volume = {24}, number = {7}, pages = {71:1--71:16}, year = {2025}, publisher = {Association for Computing Machinery}, doi = {10.1145/3744341} }

@dataset{yung_2025_16875235, author = {Yung, Yiu Cheong}, title = {HK Web Text Corpus (MySQL Dump, raw version)}, month = aug, year = 2025, publisher = {Zenodo}, doi = {10.5281/zenodo.16875235}, url = {https://doi.org/10.5281/zenodo.16875235}, }

搜集汇总

数据集介绍

构建方式

在语言资源构建领域，hk_content_corpus_mysql数据集采用系统性网络爬取技术，从香港地区公开网络资源中采集原始文本数据。数据来源涵盖新闻网站、在线论坛、百科条目及餐厅评论等多类网络平台，通过MySQL数据库格式进行结构化存储，原始数据保留UTF-8编码格式及完整的网页标记信息。为确保学术研究的可复现性，该数据集特别保留包括HTML标记、爬虫残留痕迹在内的原始数据特征，为后续语言学研究提供完整的底层数据支持。

特点

作为研究香港双语现象的重要语料库，该数据集最显著的特征在于其49.2GB的原始MySQL数据规模，完整呈现香港粤语与传统中文的语码混合现象。数据包含zh-Hant-HK和yue-Hant-HK两种语言变体，真实反映香港地区特有的双语使用场景。不同于精加工版本，该原始数据保留了网络文本的完整生态特征，包括未过滤的噪声数据和重复条目，为语言模型预训练和社会语言学分析提供了丰富的原始素材。

使用方法

该MySQL数据库文件需通过专业数据库工具进行导入与解析，主要服务于语言模型预训练和双语现象研究两大应用场景。研究人员可基于原始HTML标记进行定制化清洗，或直接提取文本内容用于模型训练。鉴于数据集包含2020年6月后受香港国安法影响的网络内容，建议在使用时进行时间维度上的数据筛选。为便于学术引用，使用该数据集时应同时引用关联研究论文及原始数据库DOI，确保学术成果的可追溯性。

背景与挑战

背景概述

香港网络文本语料库（MySQL转储原始版本）由Yiu Cheong Yung、Ying-Jia Lin和Hung-Yu Kao等研究人员于2025年构建，旨在研究香港特有的双语现象（diglossia）对语言建模的影响。该数据集源自香港各类公共网络资源，包括新闻网站、在线论坛、百科全书及餐厅评论，涵盖粤语和繁体中文两种语言变体，总规模达49.2GB。作为《ACM亚洲及低资源语言信息处理汇刊》核心研究成果的基础数据，该语料库为分析香港复杂的语言生态提供了重要实证支撑，尤其在探究社会语言分层与计算语言学模型的交互机制方面具有开创性价值。

当前挑战

该数据集面临双重挑战：在领域问题层面，香港粤语与书面繁体中文的语码转换现象（code-switching）显著增加了语言模型训练的复杂度，需解决方言特征捕获、混合语法处理等关键技术难题；在构建过程中，原始网络数据的异构性导致HTML标记残留、爬虫痕迹与重复文本等噪声问题，且2020年香港国安法实施后产生的语料可能存在潜在偏差，要求研究者建立严格的数据清洗与时效性标注机制。

常用场景

经典使用场景

在语言模型预训练领域，hk_content_corpus_mysql数据集为研究香港粤语与繁体中文的双言现象提供了重要素材。该数据集通过整合新闻网站、在线论坛及餐厅评论等公开网络文本，构建了覆盖多领域的大规模语料库，特别适合用于分析香港地区特有的语言混合使用模式。研究者可利用其原始MySQL数据追溯文本的完整演变过程，探究语言模型在方言与标准语并存环境下的表现。

实际应用

在实际应用中，该数据集支撑了香港本地化智能客服系统的开发，其粤语语料显著提升了语音识别系统对港式表达的理解能力。教育科技公司利用该资源构建了面向香港学生的写作辅助工具，能自动检测粤语口语词汇在正式文书中的不当使用。政府部门则借助其进行舆情分析，追踪网络论坛中方言使用的社会语言学特征。

衍生相关工作

基于该数据集衍生的经典研究包括香港科技大学团队开发的Diglossia-BERT模型，该成果发表于ACL 2026会议。后续研究者通过清洗后的子集构建了HK-Lexicon词典，系统标注了粤语特有词汇的语义角色。香港城市大学进一步利用该数据开展了跨方言机器翻译研究，成果被《Computational Linguistics》期刊收录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集