liswei/news-collection-zhtw
收藏Hugging Face2024-05-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liswei/news-collection-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含在线可用的繁体中文新闻、杂志和文章,提供了每篇文章的标题、文本内容和类别。类别根据新闻来源进行标注。数据集经过自定义规则清理并使用MinHash去重。数据集大小为557,764个样本,包含多个来源的数据。
该数据集包含在线可用的繁体中文新闻、杂志和文章,提供了每篇文章的标题、文本内容和类别。类别根据新闻来源进行标注。数据集经过自定义规则清理并使用MinHash去重。数据集大小为557,764个样本,包含多个来源的数据。
提供机构:
liswei
原始信息汇总
数据集概述
数据集名称
- 名称: Traditional Chinese News Collection
数据集特征
- 语言: 中文(Traditional Chinese)
- 大小: 100K<n<1M
- 任务类别:
- text-generation
- text2text-generation
- summarization
数据集内容
- 样本特征:
- title: 字符串类型
- text: 字符串类型
- category: 字符串类型
- 标签:
- article
- tech
- science
- daily-weekly
数据集结构
- 分割:
- train: 592,026个样本,数据大小为2,427,182,242字节
- 下载大小: 1,640,447,659字节
- 数据集大小: 2,427,182,242字节
数据集来源
- benchang1110/technewstw
- benchang1110/newstw
- benchang1110/humantw
- benchang1110/sciencetw
- AWeirdDev/zh-tw-pts-articles-sm
- AWeirdDev/zh-tw-articles-2k
- AWeirdDev/zh-tw-articles-6k
- The World Wide Web
数据集处理
- 清洗: 使用自定义规则进行清洗
- 去重: 使用MinHash算法进行去重
搜集汇总
数据集介绍

构建方式
在繁体中文自然语言处理领域,构建高质量文本数据集对于模型训练至关重要。该数据集通过整合多个公开可用的繁体中文新闻与文章资源,包括科技、人文、科学及日常周刊等类别,形成了覆盖广泛主题的语料库。构建过程中,采用了自定义规则进行文本清洗,并运用MinHash算法有效去重,确保了数据的纯净性与多样性,最终汇集了约55.8万条样本,为研究提供了坚实的语料基础。
特点
该数据集以其丰富的类别标注和结构化设计脱颖而出,每条样本均包含标题、正文内容及基于新闻来源的分类标签,涵盖了文章、科技、科学和日常周刊等多个领域。其规模适中,介于10万至100万条之间,特别适用于文本生成、文本到文本转换及摘要生成等任务。数据经过精心清洗与去重处理,保证了文本质量与独特性,为繁体中文语言模型的训练与评估提供了全面而可靠的资源。
使用方法
在应用层面,该数据集可直接用于训练或微调自然语言处理模型,尤其适合针对繁体中文的文本生成与摘要任务。用户可通过HuggingFace平台轻松加载数据,利用其预定义的训练分割进行模型开发。数据集的结构化特征便于直接提取标题、正文和类别信息,支持端到端的机器学习流程,为研究人员和开发者提供了便捷的实验基础,助力繁体中文语言技术的创新与优化。
背景与挑战
背景概述
在自然语言处理领域,繁体中文文本资源的系统性收集与整理,对于推动语言模型在特定文化语境下的发展具有关键意义。liswei/news-collection-zhtw数据集由研究者在2020年代初期构建,其核心目标在于聚合网络公开的繁体中文新闻、杂志及文章,形成大规模、多类别的语料库。该数据集涵盖了科技、科学、日常生活等多个主题类别,通过整合多个公开数据源并进行去重清洗,为文本生成、摘要提取等任务提供了高质量的基准数据,有效弥补了繁体中文语料相对稀缺的现状,促进了相关区域的语言技术研究与应用。
当前挑战
该数据集旨在应对繁体中文自然语言处理任务中的核心挑战,包括文本生成与摘要的语境适应性问题,以及跨领域语义理解的复杂性。在构建过程中,研究者面临多重困难:原始数据来源分散且格式异构,需设计定制化规则进行清洗与标准化;为确保语料质量,须采用MinHash等技术去除重复内容,同时保持文本的多样性与代表性;此外,类别标签依赖新闻来源而非统一主题体系,可能引入标注噪声,影响模型训练的精确度。
常用场景
经典使用场景
在自然语言处理领域,繁体中文新闻数据集常被用于文本生成与摘要任务的研究。该数据集以其丰富的新闻文本和清晰的类别划分,为模型训练提供了高质量的语料基础。研究者可借助其标题与正文的对应关系,探索序列到序列的生成机制,尤其在自动摘要和内容改写等任务中展现出显著价值。
解决学术问题
该数据集有效缓解了繁体中文自然语言处理研究中语料稀缺的困境。通过提供大规模、多类别的新闻文本,它支持了语言模型预训练、跨领域文本分类及低资源语言处理等关键课题的探索。其经过清洗和去重的特性,进一步提升了学术实验的可靠性与可复现性,推动了中文信息处理技术的均衡发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于Transformer的繁体中文文本摘要模型、跨简繁中文的迁移学习框架,以及针对新闻领域的细粒度情感分析系统。这些工作不仅拓展了数据集的学术边界,也为后续的多语言模型预训练和领域自适应研究提供了重要的基线参考。
以上内容由遇见数据集搜集并总结生成



