mii-community/UsenetArchiveIT-conversations
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mii-community/UsenetArchiveIT-conversations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Usenet数据集中过滤出来的,包含了意大利语新闻组的帖子,并且这些帖子被转换为Parquet格式以便于处理。数据集旨在支持意大利开源语言模型的开发。它包含了9,161,482个对话,涉及约539个新闻组,数据量约为18GB。虽然数据集主要包含意大利语帖子,但也可能包含其他语言的帖子。每个记录包含标题、唯一标识符、原始URL、新闻组名称以及消息数组。
该数据集是从Usenet数据集中过滤出来的,包含了意大利语新闻组的帖子,并且这些帖子被转换为Parquet格式以便于处理。数据集旨在支持意大利开源语言模型的开发。它包含了9,161,482个对话,涉及约539个新闻组,数据量约为18GB。虽然数据集主要包含意大利语帖子,但也可能包含其他语言的帖子。每个记录包含标题、唯一标识符、原始URL、新闻组名称以及消息数组。
提供机构:
mii-community
原始信息汇总
Conversational Usenet Archive IT Dataset 🇮🇹
数据集描述
数据集内容
- 该数据集是从Usenet数据集中筛选出的,包含意大利语新闻组的帖子,属于
it和italia层次结构。 - 数据已存档并转换为Parquet格式,便于处理。
- 所有包含多条消息的帖子已按对话形式分组。
描述性统计
- 包含9,161,482个对话,涉及约539个新闻组,总大小约18GB。
语言
- 数据集主要包含意大利语帖子,但可能包含其他语言的帖子。
数据集结构
特征
title: 帖子标题。id: 帖子唯一标识符。original_url: 原始帖子在Google Groups的URL。newsgroup: 帖子所属新闻组的名称。messages: 消息数组,格式为[{ role: user, content : ..... }, { role : assistant , content : ....... }]。
数据集使用
- 可通过
load_dataset函数直接从datasets加载数据集,示例代码如下: python from datasets import load_dataset
dataset = load_dataset("mii-community/UsenetArchiveIT-conversations")



