mii-community/UsenetArchiveIT-conversations

Name: mii-community/UsenetArchiveIT-conversations
Creator: mii-community
Published: 2024-03-26 19:58:08
License: 暂无描述

Hugging Face2024-03-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/mii-community/UsenetArchiveIT-conversations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Usenet数据集中过滤出来的，包含了意大利语新闻组的帖子，并且这些帖子被转换为Parquet格式以便于处理。数据集旨在支持意大利开源语言模型的开发。它包含了9,161,482个对话，涉及约539个新闻组，数据量约为18GB。虽然数据集主要包含意大利语帖子，但也可能包含其他语言的帖子。每个记录包含标题、唯一标识符、原始URL、新闻组名称以及消息数组。

提供机构：

mii-community

原始信息汇总

Conversational Usenet Archive IT Dataset 🇮🇹

数据集描述

数据集内容

该数据集是从Usenet数据集中筛选出的，包含意大利语新闻组的帖子，属于it和italia层次结构。
数据已存档并转换为Parquet格式，便于处理。
所有包含多条消息的帖子已按对话形式分组。

描述性统计

包含9,161,482个对话，涉及约539个新闻组，总大小约18GB。

语言

数据集主要包含意大利语帖子，但可能包含其他语言的帖子。

数据集结构

特征

title: 帖子标题。
id: 帖子唯一标识符。
original_url: 原始帖子在Google Groups的URL。
newsgroup: 帖子所属新闻组的名称。
messages: 消息数组，格式为[{ role: user, content : ..... }, { role : assistant , content : ....... }]。

数据集使用

可通过load_dataset函数直接从datasets加载数据集，示例代码如下： python from datasets import load_dataset

dataset = load_dataset("mii-community/UsenetArchiveIT-conversations")

5,000+

优质数据集

54 个

任务类型

进入经典数据集