renhehuang/traditional-chinese-classification
收藏Hugging Face2025-11-03 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/renhehuang/traditional-chinese-classification
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含20.585万个标签和平衡的中文文本片段的数据集,用于训练和评估分类传统中文变体(台湾传统与大陆传统)的模型。数据集涵盖各种来源、长度分布和领域,以鼓励强大的泛化能力。数据集格式为Parquet,平均文本长度为40-90个字符,包括长文本片段。数据集来源于多个公开和内部策划的语料库,包括新闻文章、社交媒体、书籍摘录、电子商务评论等。数据集经过多个处理步骤,包括字形转换验证、词汇标注、长度分层抽样、去重、质量过滤和平衡。数据集支持文本分类训练、来源/变体识别、数据清理、跨域迁移学习和基准测试等任务。
This dataset contains 205,850 labeled and class-balanced Chinese text snippets in Traditional and Simplified Chinese, designed for training and evaluating models that classify Traditional Chinese variants (Taiwan Traditional vs. Mainland Traditional). It is carefully constructed to cover diverse sources, length distributions, and domains to encourage strong generalization.
提供机构:
renhehuang



