five

hf-test/sv_corpora_parliament_processed

收藏
Hugging Face2022-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hf-test/sv_corpora_parliament_processed
下载链接
链接失效反馈
官方服务:
资源简介:
Swedish text corpus created by extracting the `"text"` from `dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")` and processing it with: ```python import re def extract_text(batch): text = batch["translation"]["sv"] batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower()) return batch ```
提供机构:
hf-test
原始信息汇总

数据集概述

数据集名称

瑞典文本语料库

数据来源

  • 数据源:europarl_bilingual 数据集
  • 语言对:英语(en)和瑞典语(sv)
  • 数据分割:训练集(train)

数据处理方法

  • 使用Python脚本从dataset = load_dataset("europarl_bilingual", lang1="en", lang2="sv", split="train")中提取"text"字段。
  • 处理步骤包括:
    • 提取batch["translation"]["sv"]中的文本。
    • 应用正则表达式re.sub(chars_to_ignore_regex, "", text.lower())去除特定字符并将文本转换为小写。

数据字段

  • text:处理后的瑞典语文本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作