hf-test/sv_corpora_parliament_processed

Name: hf-test/sv_corpora_parliament_processed
Creator: hf-test
Published: 2022-01-10 10:17:51
License: 暂无描述

Hugging Face2022-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hf-test/sv_corpora_parliament_processed

下载链接

链接失效反馈

官方服务：

资源简介：

Swedish text corpus created by extracting the `"text"` from `dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")` and processing it with: ```python import re def extract_text(batch): text = batch["translation"]["sv"] batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower()) return batch ```

提供机构：

hf-test

原始信息汇总

数据集概述

数据集名称

瑞典文本语料库

数据来源

数据源：europarl_bilingual 数据集
语言对：英语（en）和瑞典语（sv）
数据分割：训练集（train）

数据处理方法

使用Python脚本从dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")中提取"text"字段。
处理步骤包括：
- 提取batch["translation"]["sv"]中的文本。
- 应用正则表达式re.sub(chars_to_ignore_regex, "", text.lower())去除特定字符并将文本转换为小写。

数据字段

text：处理后的瑞典语文本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集