five

mii-community/UsenetArchiveIT-conversations

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mii-community/UsenetArchiveIT-conversations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Usenet数据集中过滤出来的,包含了意大利语新闻组的帖子,并且这些帖子被转换为Parquet格式以便于处理。数据集旨在支持意大利开源语言模型的开发。它包含了9,161,482个对话,涉及约539个新闻组,数据量约为18GB。虽然数据集主要包含意大利语帖子,但也可能包含其他语言的帖子。每个记录包含标题、唯一标识符、原始URL、新闻组名称以及消息数组。

该数据集是从Usenet数据集中过滤出来的,包含了意大利语新闻组的帖子,并且这些帖子被转换为Parquet格式以便于处理。数据集旨在支持意大利开源语言模型的开发。它包含了9,161,482个对话,涉及约539个新闻组,数据量约为18GB。虽然数据集主要包含意大利语帖子,但也可能包含其他语言的帖子。每个记录包含标题、唯一标识符、原始URL、新闻组名称以及消息数组。
提供机构:
mii-community
原始信息汇总

Conversational Usenet Archive IT Dataset 🇮🇹

数据集描述

数据集内容

  • 该数据集是从Usenet数据集中筛选出的,包含意大利语新闻组的帖子,属于ititalia层次结构。
  • 数据已存档并转换为Parquet格式,便于处理。
  • 所有包含多条消息的帖子已按对话形式分组。

描述性统计

  • 包含9,161,482个对话,涉及约539个新闻组,总大小约18GB。

语言

  • 数据集主要包含意大利语帖子,但可能包含其他语言的帖子。

数据集结构

特征

  • title: 帖子标题。
  • id: 帖子唯一标识符。
  • original_url: 原始帖子在Google Groups的URL。
  • newsgroup: 帖子所属新闻组的名称。
  • messages: 消息数组,格式为[{ role: user, content : ..... }, { role : assistant , content : ....... }]。

数据集使用

  • 可通过load_dataset函数直接从datasets加载数据集,示例代码如下: python from datasets import load_dataset

dataset = load_dataset("mii-community/UsenetArchiveIT-conversations")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作