mrinaldi/TestiMole

Name: mrinaldi/TestiMole
Creator: mrinaldi
Published: 2025-05-17 02:58:25
License: 暂无描述

Hugging Face2025-05-17 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/mrinaldi/TestiMole

下载链接

链接失效反馈

官方服务：

资源简介：

Testimole是一个大规模的意大利语文本语料库，包含了从网络抓取的多种类型的数据，如对话数据（Usenet、论坛、Reddit）、博客、维基、网站和学术期刊文章。数据集的目标是为意大利语创建一个巨大的语言资源，适用于多种NLP应用，包括语言建模、情感分析、文本分类等。数据集的结构包括多个子数据集，每个子数据集都有不同的数据类型和目标。

提供机构：

mrinaldi

原始信息汇总

数据集概述

数据集配置

Usenet

特征:
- title: string
- author: string
- id: int64
- progressive_number: int64
- timestamp: timestamp[s]
- newsgroup: string
- original_url: string
- text: string
分割:
- train:
  - num_bytes: 75784729153
  - num_examples: 89499446
下载大小: 34215328650
数据集大小: 75784729153

Forums

特征:
- title: string
- author: string
- post_id: int32
- progressive_number: int32
- timestamp: string
- forum: string
- text: string
- image_list: sequence: int32
- image_file: int32
分割:
- train:
  - num_bytes: 263411751276
  - num_examples: 468698334
下载大小: 103952670799
数据集大小: 263411751276

OJS

特征:
- journal: string
- url: string
- metadata: list
  - Alternative: string
  - Coverage: string
  - DOI: string
  - Description: string
  - Format: string
  - ISSN: string
  - Identifier: string
  - Issue: string
  - Language: string
  - NBN: string
  - PersonalName: string
  - Rights: string
  - Source: string
  - Sponsor: string
  - Subject: string
  - Title: string
  - Type: string
  - URI: string
  - Volume: string
  - abbrev: string
  - abstract: string
  - articleType: string
  - author: string
  - authors: string
  - available: string
  - created: string
  - date: string
  - dateSubmitted: string
  - doi: string
  - firstpage: string
  - institution: string
  - issn: string
  - issue: string
  - issued: string
  - keywords: string
  - language: string
  - lastpage: string
  - modified: string
  - nbn: string
  - pageNumber: string
  - readable: string
  - reference: string
  - spatial: string
  - temporal: string
  - title: string
  - url: string
  - volume: string
- text: string
- platform: string
分割:
- train:
  - num_bytes: 12343533858
  - num_examples: 232223
下载大小: 2948236259
数据集大小: 12343533858

Blogs

特征:
- title: string
- name: string
- author: string
- date: string
- url: string
- text: string
- category: string
- license_guess: string
- fasttext_langid: sequence: string
- fasttext_langprob: float64
分割:
- train:
  - num_bytes: 7100477248
  - num_examples: 1724658
下载大小: 3765734285
数据集大小: 7100477248

Books

特征:
- title: string
- author: string
- url: string
- text: string
分割:
- train:
  - num_bytes: 1567112840
  - num_examples: 6167
下载大小: 970007483
数据集大小: 1567112840

特征:
- subreddit: string
- author: string
- id: string
- parent_id: string
- created_utc: string
- score: string
- ups: string
- downs: string
- text: string
分割:
- train:
  - num_bytes: 368299927
  - num_examples: 4192526
下载大小: 137818471
数据集大小: 368299927

Websites

特征:
- url: string
- text: string
分割:
- train:
  - num_bytes: 2046525253
  - num_examples: 163554
下载大小: 966736330
数据集大小: 2046525253

Wikimedia_it

特征:
- title: string
- text: string
- wiki: string
分割:
- train:
  - num_bytes: 16019187125
  - num_examples: 5408451
下载大小: 7883736990
数据集大小: 16019187125

Wikimedia_others

特征:
- title: string
- text: string
- wiki: string
分割:
- train:
  - num_bytes: 1837994874
  - num_examples: 1043329
下载大小: 814755723
数据集大小: 1837994874

数据集结构

对话数据（约 850 亿 tokens）

UsenetArchiveIT

统计数据:
- chars: 59389804791
- tokens: 19395579455
- sentences: 519535427
- posts: 89499446
- threads: 14521548
列:
- Title: 线程的原始标题
- Author: 帖子作者
- ID: 新闻组中帖子的唯一标识符
- Progressive_id: 线程中单个消息的递增 ID
- Timestamp: 帖子的创建时间和日期，ISO-8601 格式
- Newsgroup: 帖子所属的新闻组名称
- Original_url: 线程的 URL
- Text: 消息的文本

Forum

统计数据:
- chars: 199436329709
- tokens: 62415825978
- sentences: 1673025712
- posts: 468391746
- threads: 25280745
- hasImage: 46071
列:
- Title: 线程的原始标题
- Author: 帖子作者
- post_id: 论坛中帖子的唯一标识符
- Progressive_id: 线程中单个消息的递增 ID
- Timestamp: 帖子的创建时间和日期。大多数情况下为 ISO-8601 格式，有时可能未转换为 ISO-8601 格式，因此为其他格式。在极少数情况下，设置为 None。
- Forum: 论坛名称。如果论坛属于 Forumfree 或 Forumcommunity 电路，则论坛名称后附加电路名称。有些属于 Forumfree 电路的论坛没有附加 Forumfree。这应该在未来的版本中修复。
- Text: 消息的文本
- image_list: 实验性多模态支持
- image_file: 实验性多模态支持

一般数据

OJS

列:
- Journal:
- url:
- metadata:
- text:
- platform:

Blogs

列:
- title: 文章/帖子的标题
- name: 博客的名称
- author: 文章/帖子的作者，如果可用
- date: 文章/帖子的日期，ISO-8601 格式，如果可用，否则为 None
- url: 原始 URL
- text: 文章/帖子的文本
- category: 博客的类别。目前只有少数博客被标注了类别。
- license_guess: 由自动化且不完美的脚本猜测的博客原始许可证
- fasttext_langid: fasttext 识别的最可能的语言
- fasttext_langprob: fasttext 识别的最可能语言的概率

Wikimedia

列:
- title:
- text:
- wiki:

5,000+

优质数据集

54 个

任务类型

进入经典数据集