frenchtext/bank-es-2401
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/frenchtext/bank-es-2401
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为bank es websites - 2401,主要包含从西班牙语银行相关网站抓取的文本数据。数据集由wordslab-webscraper工具生成,遵循了礼貌的网络抓取最佳实践。数据集分为训练集、验证集和测试集,每个示例包含一个完整的HTML页面或PDF文档的文本内容,并保留了文档结构。数据集的特征包括URI、是否从PDF提取、时间戳、语言、标题、文本、单词数、平均单词长度、字符数、字母字符数、数字字符数和其他字符数。数据集的使用仅限于训练大型语言模型,并且用户需要确保遵守相关法律。数据集未经过手动筛选,可能包含误导性、冒犯性或有害内容,因此在使用前建议进行过滤。
该数据集名为bank es websites - 2401,主要包含从西班牙语银行相关网站抓取的文本数据。数据集由wordslab-webscraper工具生成,遵循了礼貌的网络抓取最佳实践。数据集分为训练集、验证集和测试集,每个示例包含一个完整的HTML页面或PDF文档的文本内容,并保留了文档结构。数据集的特征包括URI、是否从PDF提取、时间戳、语言、标题、文本、单词数、平均单词长度、字符数、字母字符数、数字字符数和其他字符数。数据集的使用仅限于训练大型语言模型,并且用户需要确保遵守相关法律。数据集未经过手动筛选,可能包含误导性、冒犯性或有害内容,因此在使用前建议进行过滤。
提供机构:
frenchtext
原始信息汇总
数据集卡片 "bank es websites - 2401"
数据集概述
- 名称: bank es websites - 2401
- 标签:
- wordslab-webscraper
- 任务类别:
- text-generation
- 任务ID:
- language-modeling
- 数据规模: 10K<n<100K
- 语言: es
- 多语言性: monolingual
- 许可证: apache-2.0
- 数据来源: original
- 语言创建者:
- found
- 标注创建者:
- no-annotation
数据集配置
- 配置名称: default
- 数据文件:
- 训练集: bank_es_2401_train_*.parquet
- 验证集: bank_es_2401_valid_*.parquet
- 测试集: bank_es_2401_test_*.parquet
数据集信息
- 特征:
- Uri: string
- ExtractedFromPDF: bool
- Timestamp: string
- Lang: string
- Title: string
- Text: string
- Words: int32
- AvgWordsLength: int32
- Chars: int32
- LetterChars: int32
- NumberChars: int32
- OtherChars: int32
- 配置名称: default
- 分割:
- 训练集: 20350 个样本
- 验证集: 2545 个样本
- 测试集: 2560 个样本
- 下载大小: 110598767 字节
数据集结构
- 分割:
- 训练集: 80% 的数据
- 验证集: 10% 的数据
- 测试集: 10% 的数据
- 文件命名模式: bank_es_2401_[split]_[website].parquet
使用限制
- 警告:
- 数据集中的文本属于原作者,受版权法保护。
- 仅允许用于训练大型语言模型。
- 使用训练好的模型时,需确保遵守法律。
- 如果从该模型中获益,应尝试与原文作者共享价值。
数据集风险与限制
- 数据集直接从源网站提取,未经过手动筛选以去除误导性、攻击性或有害内容。
- 在使用前请添加过滤步骤,以确保数据来源可信。



