five

mrinaldi/TestiMole

收藏
Hugging Face2025-05-17 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/mrinaldi/TestiMole
下载链接
链接失效反馈
官方服务:
资源简介:
Testimole是一个大规模的意大利语文本语料库,包含了从网络抓取的多种类型的数据,如对话数据(Usenet、论坛、Reddit)、博客、维基、网站和学术期刊文章。数据集的目标是为意大利语创建一个巨大的语言资源,适用于多种NLP应用,包括语言建模、情感分析、文本分类等。数据集的结构包括多个子数据集,每个子数据集都有不同的数据类型和目标。
提供机构:
mrinaldi
原始信息汇总

数据集概述

数据集配置

Usenet

  • 特征:
    • title: string
    • author: string
    • id: int64
    • progressive_number: int64
    • timestamp: timestamp[s]
    • newsgroup: string
    • original_url: string
    • text: string
  • 分割:
    • train:
      • num_bytes: 75784729153
      • num_examples: 89499446
  • 下载大小: 34215328650
  • 数据集大小: 75784729153

Forums

  • 特征:
    • title: string
    • author: string
    • post_id: int32
    • progressive_number: int32
    • timestamp: string
    • forum: string
    • text: string
    • image_list: sequence: int32
    • image_file: int32
  • 分割:
    • train:
      • num_bytes: 263411751276
      • num_examples: 468698334
  • 下载大小: 103952670799
  • 数据集大小: 263411751276

OJS

  • 特征:
    • journal: string
    • url: string
    • metadata: list
      • Alternative: string
      • Coverage: string
      • DOI: string
      • Description: string
      • Format: string
      • ISSN: string
      • Identifier: string
      • Issue: string
      • Language: string
      • NBN: string
      • PersonalName: string
      • Rights: string
      • Source: string
      • Sponsor: string
      • Subject: string
      • Title: string
      • Type: string
      • URI: string
      • Volume: string
      • abbrev: string
      • abstract: string
      • articleType: string
      • author: string
      • authors: string
      • available: string
      • created: string
      • date: string
      • dateSubmitted: string
      • doi: string
      • firstpage: string
      • institution: string
      • issn: string
      • issue: string
      • issued: string
      • keywords: string
      • language: string
      • lastpage: string
      • modified: string
      • nbn: string
      • pageNumber: string
      • readable: string
      • reference: string
      • spatial: string
      • temporal: string
      • title: string
      • url: string
      • volume: string
    • text: string
    • platform: string
  • 分割:
    • train:
      • num_bytes: 12343533858
      • num_examples: 232223
  • 下载大小: 2948236259
  • 数据集大小: 12343533858

Blogs

  • 特征:
    • title: string
    • name: string
    • author: string
    • date: string
    • url: string
    • text: string
    • category: string
    • license_guess: string
    • fasttext_langid: sequence: string
    • fasttext_langprob: float64
  • 分割:
    • train:
      • num_bytes: 7100477248
      • num_examples: 1724658
  • 下载大小: 3765734285
  • 数据集大小: 7100477248

Books

  • 特征:
    • title: string
    • author: string
    • url: string
    • text: string
  • 分割:
    • train:
      • num_bytes: 1567112840
      • num_examples: 6167
  • 下载大小: 970007483
  • 数据集大小: 1567112840

Reddit

  • 特征:
    • subreddit: string
    • author: string
    • id: string
    • parent_id: string
    • created_utc: string
    • score: string
    • ups: string
    • downs: string
    • text: string
  • 分割:
    • train:
      • num_bytes: 368299927
      • num_examples: 4192526
  • 下载大小: 137818471
  • 数据集大小: 368299927

Websites

  • 特征:
    • url: string
    • text: string
  • 分割:
    • train:
      • num_bytes: 2046525253
      • num_examples: 163554
  • 下载大小: 966736330
  • 数据集大小: 2046525253

Wikimedia_it

  • 特征:
    • title: string
    • text: string
    • wiki: string
  • 分割:
    • train:
      • num_bytes: 16019187125
      • num_examples: 5408451
  • 下载大小: 7883736990
  • 数据集大小: 16019187125

Wikimedia_others

  • 特征:
    • title: string
    • text: string
    • wiki: string
  • 分割:
    • train:
      • num_bytes: 1837994874
      • num_examples: 1043329
  • 下载大小: 814755723
  • 数据集大小: 1837994874

数据集结构

对话数据(约 850 亿 tokens)

UsenetArchiveIT

  • 统计数据:
    • chars: 59389804791
    • tokens: 19395579455
    • sentences: 519535427
    • posts: 89499446
    • threads: 14521548
  • :
    • Title: 线程的原始标题
    • Author: 帖子作者
    • ID: 新闻组中帖子的唯一标识符
    • Progressive_id: 线程中单个消息的递增 ID
    • Timestamp: 帖子的创建时间和日期,ISO-8601 格式
    • Newsgroup: 帖子所属的新闻组名称
    • Original_url: 线程的 URL
    • Text: 消息的文本

Forum

  • 统计数据:
    • chars: 199436329709
    • tokens: 62415825978
    • sentences: 1673025712
    • posts: 468391746
    • threads: 25280745
    • hasImage: 46071
  • :
    • Title: 线程的原始标题
    • Author: 帖子作者
    • post_id: 论坛中帖子的唯一标识符
    • Progressive_id: 线程中单个消息的递增 ID
    • Timestamp: 帖子的创建时间和日期。大多数情况下为 ISO-8601 格式,有时可能未转换为 ISO-8601 格式,因此为其他格式。在极少数情况下,设置为 None。
    • Forum: 论坛名称。如果论坛属于 Forumfree 或 Forumcommunity 电路,则论坛名称后附加电路名称。有些属于 Forumfree 电路的论坛没有附加 Forumfree。这应该在未来的版本中修复。
    • Text: 消息的文本
    • image_list: 实验性多模态支持
    • image_file: 实验性多模态支持

一般数据

OJS

  • :
    • Journal:
    • url:
    • metadata:
    • text:
    • platform:

Blogs

  • :
    • title: 文章/帖子的标题
    • name: 博客的名称
    • author: 文章/帖子的作者,如果可用
    • date: 文章/帖子的日期,ISO-8601 格式,如果可用,否则为 None
    • url: 原始 URL
    • text: 文章/帖子的文本
    • category: 博客的类别。目前只有少数博客被标注了类别。
    • license_guess: 由自动化且不完美的脚本猜测的博客原始许可证
    • fasttext_langid: fasttext 识别的最可能的语言
    • fasttext_langprob: fasttext 识别的最可能语言的概率

Wikimedia

  • :
    • title:
    • text:
    • wiki:
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作