five

TUMCC

收藏
github2024-03-01 更新2024-05-31 收录
下载链接:
https://github.com/m1-llie/TUMCC
下载链接
链接失效反馈
官方服务:
资源简介:
TUMCC是首个中文黑话识别领域的语料集,包含28,749个句子,804,971个字符,来自19,821个Telegram用户的12个Telegram群组。经过清洗,该数据集包含3,863个句子,100,000个字符,来自3,139个Telegram用户。

The TUMCC dataset represents the inaugural corpus in the realm of Chinese slang recognition, encompassing 28,749 sentences and 804,971 characters sourced from 19,821 Telegram users across 12 Telegram groups. Following a rigorous cleaning process, the dataset has been refined to include 3,863 sentences and 100,000 characters, contributed by 3,139 distinct Telegram users.
创建时间:
2021-10-16
原始信息汇总

TUMCC (Telegram Underground Market Chinese Corpus) 数据集概述

数据集基本信息

  • 规模:原始数据集包含28,749个句子,总计804,971个字符,来自19,821名Telegram用户,涉及12个Telegram群组。
  • 清洗后数据:清洗后的数据集包含3,863个句子,总计100,000个字符,来自3,139名Telegram用户。

数据处理

  • 预处理:数据集在发布前已完成筛选和分词处理,便于直接使用。

文件内容

  • TUMCC-clean.txt:包含清洗后的数据集,可直接用于研究。
  • TUMCC-raw.7z:包含从Telegram收集的原始信息,用户可自行进行文本清洗以获取更多有效数据和信息。

引用信息

  • 如需引用,请使用以下格式:

    @article{hou2022identification, title={Identification of Chinese dark jargons in Telegram underground markets using context-oriented and linguistic features}, author={Hou, Yiwei and Wang, Hailin and Wang, Haizhou}, journal={Information Processing & Management}, volume={59}, number={5}, pages={103033,1--20}, year={2022}, publisher={Elsevier} }

搜集汇总
数据集介绍
main_image_url
构建方式
TUMCC数据集的构建过程体现了对Telegram地下市场中文语料的系统性采集与处理。研究团队从12个Telegram群组中收集了19,821名用户的28,749条句子,总计804,971个字符。在数据发布前,团队完成了数据筛选与分词处理,确保语料的质量与可用性。经过清洗后,数据集最终保留了3,139名用户的3,863条句子,共计100,000个字符,为后续研究提供了高质量的语料基础。
特点
TUMCC作为首个专注于中文黑话识别的语料库,具有显著的专业性与独特性。其语料来源于Telegram地下市场,涵盖了多样化的黑话表达与语境。数据集经过严格的清洗与分词处理,确保了语料的规范性与一致性。此外,TUMCC提供了清洗后的语料文件与原始数据压缩包,为研究者提供了灵活的选择,既能直接使用清洗后的数据,也能通过进一步处理挖掘更多有价值的信息。
使用方法
TUMCC数据集的使用方法简洁明了,研究者可直接使用`TUMCC-clean.txt`文件中的清洗后语料进行实验与分析。对于希望深入挖掘原始数据的研究者,`TUMCC-raw.7z`文件提供了未经处理的原始信息,支持自定义的文本清洗与信息提取。数据集的使用场景广泛,适用于黑话识别、自然语言处理、信息安全等领域的研究。通过引用相关论文,研究者可进一步了解数据集的构建细节与应用背景。
背景与挑战
背景概述
TUMCC(Telegram Underground Market Chinese Corpus)是首个专注于中文黑话识别的语料库,由Yiwei Hou、Hailin Wang和Haizhou Wang等研究人员于2022年创建,并发表于《Information Processing & Management》期刊。该数据集旨在解决Telegram地下市场中中文黑话的识别问题,为网络犯罪监测和语言学研究提供了重要资源。TUMCC包含从12个Telegram群组中收集的28,749条句子,经过筛选和分词处理后,最终保留了3,863条句子,涵盖3,139名用户。其发布不仅填补了中文黑话识别领域的空白,还为相关研究提供了高质量的数据支持。
当前挑战
TUMCC在构建过程中面临多重挑战。首先,中文黑话的多样性和隐蔽性使得数据收集和标注极为复杂,研究人员需深入理解地下市场的语言特征。其次,Telegram平台的隐私保护机制增加了数据获取的难度,需通过合法途径确保数据的合规性。此外,数据清洗和分词处理也面临技术挑战,需剔除无关信息并保留有效数据。在应用层面,TUMCC的挑战在于如何利用上下文和语言特征准确识别黑话,这对自然语言处理模型的设计和优化提出了更高要求。
常用场景
经典使用场景
TUMCC数据集在中文黑话识别领域具有重要应用价值,特别是在Telegram地下市场中的中文黑话识别。该数据集通过收集来自12个Telegram群组的19,821名用户的28,749条句子,经过筛选和分词处理后,提供了3,863条有效句子,为研究者提供了一个高质量的中文黑话语料库。
衍生相关工作
TUMCC数据集的发布催生了一系列相关研究,特别是在中文黑话识别和自然语言处理领域。基于该数据集,研究者提出了多种黑话识别模型和算法,进一步推动了该领域的发展。此外,该数据集还被用于跨语言黑话识别研究,为多语言环境下的黑话识别提供了新的思路和方法。
数据集最近研究
最新研究方向
在网络安全与自然语言处理交叉领域,TUMCC数据集作为首个中文暗语识别语料库,为研究地下市场中的隐秘通信提供了重要资源。该数据集通过对Telegram平台上12个群组的19,821名用户进行数据采集,经过筛选与分词处理,最终保留了3,863条有效句子。这些数据不仅为暗语识别模型的训练与评估提供了基础,还推动了基于上下文与语言特征的暗语检测技术的发展。近期研究聚焦于利用深度学习与迁移学习技术,进一步提升暗语识别的准确性与鲁棒性。TUMCC的发布不仅填补了中文暗语识别领域的空白,还为打击网络犯罪与维护网络安全提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作