mrinaldi/TestiMole
收藏Hugging Face2025-05-17 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/mrinaldi/TestiMole
下载链接
链接失效反馈官方服务:
资源简介:
Testimole是一个大规模的意大利语文本语料库,包含了从网络抓取的多种类型的数据,如对话数据(Usenet、论坛、Reddit)、博客、维基、网站和学术期刊文章。数据集的目标是为意大利语创建一个巨大的语言资源,适用于多种NLP应用,包括语言建模、情感分析、文本分类等。数据集的结构包括多个子数据集,每个子数据集都有不同的数据类型和目标。
提供机构:
mrinaldi
原始信息汇总
数据集概述
数据集配置
Usenet
- 特征:
- title: string
- author: string
- id: int64
- progressive_number: int64
- timestamp: timestamp[s]
- newsgroup: string
- original_url: string
- text: string
- 分割:
- train:
- num_bytes: 75784729153
- num_examples: 89499446
- train:
- 下载大小: 34215328650
- 数据集大小: 75784729153
Forums
- 特征:
- title: string
- author: string
- post_id: int32
- progressive_number: int32
- timestamp: string
- forum: string
- text: string
- image_list: sequence: int32
- image_file: int32
- 分割:
- train:
- num_bytes: 263411751276
- num_examples: 468698334
- train:
- 下载大小: 103952670799
- 数据集大小: 263411751276
OJS
- 特征:
- journal: string
- url: string
- metadata: list
- Alternative: string
- Coverage: string
- DOI: string
- Description: string
- Format: string
- ISSN: string
- Identifier: string
- Issue: string
- Language: string
- NBN: string
- PersonalName: string
- Rights: string
- Source: string
- Sponsor: string
- Subject: string
- Title: string
- Type: string
- URI: string
- Volume: string
- abbrev: string
- abstract: string
- articleType: string
- author: string
- authors: string
- available: string
- created: string
- date: string
- dateSubmitted: string
- doi: string
- firstpage: string
- institution: string
- issn: string
- issue: string
- issued: string
- keywords: string
- language: string
- lastpage: string
- modified: string
- nbn: string
- pageNumber: string
- readable: string
- reference: string
- spatial: string
- temporal: string
- title: string
- url: string
- volume: string
- text: string
- platform: string
- 分割:
- train:
- num_bytes: 12343533858
- num_examples: 232223
- train:
- 下载大小: 2948236259
- 数据集大小: 12343533858
Blogs
- 特征:
- title: string
- name: string
- author: string
- date: string
- url: string
- text: string
- category: string
- license_guess: string
- fasttext_langid: sequence: string
- fasttext_langprob: float64
- 分割:
- train:
- num_bytes: 7100477248
- num_examples: 1724658
- train:
- 下载大小: 3765734285
- 数据集大小: 7100477248
Books
- 特征:
- title: string
- author: string
- url: string
- text: string
- 分割:
- train:
- num_bytes: 1567112840
- num_examples: 6167
- train:
- 下载大小: 970007483
- 数据集大小: 1567112840
- 特征:
- subreddit: string
- author: string
- id: string
- parent_id: string
- created_utc: string
- score: string
- ups: string
- downs: string
- text: string
- 分割:
- train:
- num_bytes: 368299927
- num_examples: 4192526
- train:
- 下载大小: 137818471
- 数据集大小: 368299927
Websites
- 特征:
- url: string
- text: string
- 分割:
- train:
- num_bytes: 2046525253
- num_examples: 163554
- train:
- 下载大小: 966736330
- 数据集大小: 2046525253
Wikimedia_it
- 特征:
- title: string
- text: string
- wiki: string
- 分割:
- train:
- num_bytes: 16019187125
- num_examples: 5408451
- train:
- 下载大小: 7883736990
- 数据集大小: 16019187125
Wikimedia_others
- 特征:
- title: string
- text: string
- wiki: string
- 分割:
- train:
- num_bytes: 1837994874
- num_examples: 1043329
- train:
- 下载大小: 814755723
- 数据集大小: 1837994874
数据集结构
对话数据(约 850 亿 tokens)
UsenetArchiveIT
- 统计数据:
- chars: 59389804791
- tokens: 19395579455
- sentences: 519535427
- posts: 89499446
- threads: 14521548
- 列:
- Title: 线程的原始标题
- Author: 帖子作者
- ID: 新闻组中帖子的唯一标识符
- Progressive_id: 线程中单个消息的递增 ID
- Timestamp: 帖子的创建时间和日期,ISO-8601 格式
- Newsgroup: 帖子所属的新闻组名称
- Original_url: 线程的 URL
- Text: 消息的文本
Forum
- 统计数据:
- chars: 199436329709
- tokens: 62415825978
- sentences: 1673025712
- posts: 468391746
- threads: 25280745
- hasImage: 46071
- 列:
- Title: 线程的原始标题
- Author: 帖子作者
- post_id: 论坛中帖子的唯一标识符
- Progressive_id: 线程中单个消息的递增 ID
- Timestamp: 帖子的创建时间和日期。大多数情况下为 ISO-8601 格式,有时可能未转换为 ISO-8601 格式,因此为其他格式。在极少数情况下,设置为 None。
- Forum: 论坛名称。如果论坛属于 Forumfree 或 Forumcommunity 电路,则论坛名称后附加电路名称。有些属于 Forumfree 电路的论坛没有附加 Forumfree。这应该在未来的版本中修复。
- Text: 消息的文本
- image_list: 实验性多模态支持
- image_file: 实验性多模态支持
一般数据
OJS
- 列:
- Journal:
- url:
- metadata:
- text:
- platform:
Blogs
- 列:
- title: 文章/帖子的标题
- name: 博客的名称
- author: 文章/帖子的作者,如果可用
- date: 文章/帖子的日期,ISO-8601 格式,如果可用,否则为 None
- url: 原始 URL
- text: 文章/帖子的文本
- category: 博客的类别。目前只有少数博客被标注了类别。
- license_guess: 由自动化且不完美的脚本猜测的博客原始许可证
- fasttext_langid: fasttext 识别的最可能的语言
- fasttext_langprob: fasttext 识别的最可能语言的概率
Wikimedia
- 列:
- title:
- text:
- wiki:



