mrinaldi/UsenetArchiveIT
收藏Usenet Archive IT Dataset 🇮🇹
描述
数据集内容
该数据集包含来自意大利语新闻组的Usenet帖子,属于it和italia层次结构。数据已被存档并转换为Parquet格式,以便于处理。文本的唯一预处理是删除了两个包含恶意脚本“ILOVEYOU”的VBS源代码的对话,这些对话因教学目的于2000年5月5日由两个用户共享,导致HF标记数据集为恶意。
该数据集为mii-community项目做出贡献,旨在推动意大利开源语言模型(LLMs)的创建。🇮🇹 🤖
描述性统计
该数据集包含85010057个帖子,来自539个新闻组中的11956999个主题。主题平均包含约7个帖子,中位数为3个帖子。帖子创建于1995年至2024年之间。所有帖子的文本总和为55885335313个字符,或大约10-20B个令牌。帖子的平均长度为657个字符,中位数长度为380个字符。
语言
数据集应仅包含意大利语帖子,但也可能包含其他语言的帖子。数据集未进行语言过滤,因为预期帖子为意大利语。
数据集结构
特征
数据集中的每个记录包含以下字段:
title: 帖子的标题。author: 帖子的作者用户名。id: 帖子的唯一标识符。timestamp: 帖子的时间戳。progressive_number: 新闻组中主题的整数标识符。original_url: Google Groups上原始帖子的URL。newsgroup: 帖子所属新闻组的名称。text: 帖子的文本内容。
该仓库包含以Parquet格式存储的数据集。数据集被分割成多个Parquet文件,位于parquet文件夹内,每个文件包含部分记录。文件命名为usenet_converted_*.parquet,其中*表示文件的顺序。原始的jsonl行数据也以压缩的bz2文件形式包含在内。
示例
以下是一个完整的JSON记录供参考:
json {"title": "Cerco Vespa", "author": "Castel", "id": 4423, "progressive_number": 1, "timestamp": "1998-06-26T09:00:00", "newsgroup": "it.annunci.usato", "original_url": "https://groups.google.com/g/it.annunci.usato/c/kKlb8hcSiX0/m/eXMsxa8SJ5gJ", "text": "Cerco vespa 125 o 50 in buono stato ma di vecchio modello, zone RE, PR, MO. Grazie in anticipo Castel lorenzo.c...@comune.re.it"}
附加信息
数据集策展人
该数据集由Hugging Face用户mrinaldi和ruggsea编译和策展,作为mii-community数据集创建工作的一部分。用于下载帖子的软件由mrinaldi编写,其源代码可在github上找到。
数据集理由
该数据集是创建各种高质量意大利语原生文本数据集的更大努力的一部分,旨在促进意大利开源LLMs的发展。
该数据集预计用于训练和微调语言模型,以及其他NLP任务,如文本分类、摘要和翻译。text列包含帖子的原始文本,newsgroup列包含帖子所属新闻组的名称,可用于分类任务。
使用
您可以使用load_dataset函数直接从datasets加载数据集。以下是一个示例:
python from datasets import load_dataset
dataset = load_dataset("mrinaldi/UsenetArchiveIT")



