TUMCC

github2024-03-01 更新2024-05-31 收录

下载链接：

https://github.com/m1-llie/TUMCC

下载链接

链接失效反馈

官方服务：

资源简介：

TUMCC是首个中文黑话识别领域的语料集，包含28,749个句子，804,971个字符，来自19,821个Telegram用户的12个Telegram群组。经过清洗，该数据集包含3,863个句子，100,000个字符，来自3,139个Telegram用户。

The TUMCC dataset represents the inaugural corpus in the realm of Chinese slang recognition, encompassing 28,749 sentences and 804,971 characters sourced from 19,821 Telegram users across 12 Telegram groups. Following a rigorous cleaning process, the dataset has been refined to include 3,863 sentences and 100,000 characters, contributed by 3,139 distinct Telegram users.

创建时间：

2021-10-16

原始信息汇总

TUMCC (Telegram Underground Market Chinese Corpus) 数据集概述

数据集基本信息

规模：原始数据集包含28,749个句子，总计804,971个字符，来自19,821名Telegram用户，涉及12个Telegram群组。
清洗后数据：清洗后的数据集包含3,863个句子，总计100,000个字符，来自3,139名Telegram用户。

数据处理

预处理：数据集在发布前已完成筛选和分词处理，便于直接使用。

文件内容

TUMCC-clean.txt：包含清洗后的数据集，可直接用于研究。
TUMCC-raw.7z：包含从Telegram收集的原始信息，用户可自行进行文本清洗以获取更多有效数据和信息。

引用信息

如需引用，请使用以下格式：

@article{hou2022identification, title={Identification of Chinese dark jargons in Telegram underground markets using context-oriented and linguistic features}, author={Hou, Yiwei and Wang, Hailin and Wang, Haizhou}, journal={Information Processing & Management}, volume={59}, number={5}, pages={103033,1--20}, year={2022}, publisher={Elsevier} }

搜集汇总

数据集介绍

构建方式

TUMCC数据集的构建过程体现了对Telegram地下市场中文语料的系统性采集与处理。研究团队从12个Telegram群组中收集了19,821名用户的28,749条句子，总计804,971个字符。在数据发布前，团队完成了数据筛选与分词处理，确保语料的质量与可用性。经过清洗后，数据集最终保留了3,139名用户的3,863条句子，共计100,000个字符，为后续研究提供了高质量的语料基础。

特点

TUMCC作为首个专注于中文黑话识别的语料库，具有显著的专业性与独特性。其语料来源于Telegram地下市场，涵盖了多样化的黑话表达与语境。数据集经过严格的清洗与分词处理，确保了语料的规范性与一致性。此外，TUMCC提供了清洗后的语料文件与原始数据压缩包，为研究者提供了灵活的选择，既能直接使用清洗后的数据，也能通过进一步处理挖掘更多有价值的信息。

使用方法

TUMCC数据集的使用方法简洁明了，研究者可直接使用`TUMCC-clean.txt`文件中的清洗后语料进行实验与分析。对于希望深入挖掘原始数据的研究者，`TUMCC-raw.7z`文件提供了未经处理的原始信息，支持自定义的文本清洗与信息提取。数据集的使用场景广泛，适用于黑话识别、自然语言处理、信息安全等领域的研究。通过引用相关论文，研究者可进一步了解数据集的构建细节与应用背景。

背景与挑战

背景概述

TUMCC（Telegram Underground Market Chinese Corpus）是首个专注于中文黑话识别的语料库，由Yiwei Hou、Hailin Wang和Haizhou Wang等研究人员于2022年创建，并发表于《Information Processing & Management》期刊。该数据集旨在解决Telegram地下市场中中文黑话的识别问题，为网络犯罪监测和语言学研究提供了重要资源。TUMCC包含从12个Telegram群组中收集的28,749条句子，经过筛选和分词处理后，最终保留了3,863条句子，涵盖3,139名用户。其发布不仅填补了中文黑话识别领域的空白，还为相关研究提供了高质量的数据支持。

当前挑战

TUMCC在构建过程中面临多重挑战。首先，中文黑话的多样性和隐蔽性使得数据收集和标注极为复杂，研究人员需深入理解地下市场的语言特征。其次，Telegram平台的隐私保护机制增加了数据获取的难度，需通过合法途径确保数据的合规性。此外，数据清洗和分词处理也面临技术挑战，需剔除无关信息并保留有效数据。在应用层面，TUMCC的挑战在于如何利用上下文和语言特征准确识别黑话，这对自然语言处理模型的设计和优化提出了更高要求。

常用场景

经典使用场景

TUMCC数据集在中文黑话识别领域具有重要应用价值，特别是在Telegram地下市场中的中文黑话识别。该数据集通过收集来自12个Telegram群组的19,821名用户的28,749条句子，经过筛选和分词处理后，提供了3,863条有效句子，为研究者提供了一个高质量的中文黑话语料库。

衍生相关工作

TUMCC数据集的发布催生了一系列相关研究，特别是在中文黑话识别和自然语言处理领域。基于该数据集，研究者提出了多种黑话识别模型和算法，进一步推动了该领域的发展。此外，该数据集还被用于跨语言黑话识别研究，为多语言环境下的黑话识别提供了新的思路和方法。

数据集最近研究