hf-test/sv_corpora_parliament_processed
收藏Hugging Face2022-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hf-test/sv_corpora_parliament_processed
下载链接
链接失效反馈官方服务:
资源简介:
Swedish text corpus created by extracting the `"text"` from `dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")` and processing it with:
```python
import re
def extract_text(batch):
text = batch["translation"]["sv"]
batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower())
return batch
```
提供机构:
hf-test
原始信息汇总
数据集概述
数据集名称
瑞典文本语料库
数据来源
- 数据源:
europarl_bilingual数据集 - 语言对:英语(en)和瑞典语(sv)
- 数据分割:训练集(train)
数据处理方法
- 使用Python脚本从
dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")中提取"text"字段。 - 处理步骤包括:
- 提取
batch["translation"]["sv"]中的文本。 - 应用正则表达式
re.sub(chars_to_ignore_regex, "", text.lower())去除特定字符并将文本转换为小写。
- 提取
数据字段
text:处理后的瑞典语文本。



