LCC_deu_news_1M_bt
收藏数据集概述:Leipzig Corpora Collection - Backtranslated News German 1M*n
基本信息
- 名称:Leipzig Corpora Collection - Backtranslated News German 1M*n
- 许可证:CC-BY-4.0
- 语言:德语(de)
- 多语言性:单语
- 任务类别:特征提取、句子相似性
- 规模:10M < n < 100M
数据集配置
-
0_deu_news_1M_bt_scored
- 数据文件:
0_deu_news_1M_bt_scored/deu_news_*.parquet - 列:
id:原始IDoriginal:原始句子source_url:原始URLen_mt:德语到英语的翻译de_mt:回译的德语版本cos_sim_sts_en:英语翻译与原文的余弦相似度cos_sim_sts_de:回译德语与原文的余弦相似度
- 数据文件:
-
年份-triplet-5(2012-2024)
- 数据文件:
年份-triplet-5/train-5hn-*.parquet - 列:
de_mt:回译的德语文本original:原始德语文本negative_1至negative_5:5个硬负样本
- 数据文件:
数据集内容
- 原始数据来源:Leipzig Corpora Collection的德语新闻部分(2012-2024)
- 处理方式:
- 使用quickMT进行德语到英语的翻译及回译
- 使用STS模型(sts-mrl-en-de-base-v1)评分
- 筛选相似度高于平均值10%的文本对
- 为每行挖掘5个硬负样本
统计信息
- 总文本对数量:12,931,800
- 各年份统计:
- 2012-2024年,每年约100万句子(部分年份略有减少)
- 平均余弦相似度:约0.75-0.76
- 筛选阈值:约0.83-0.83
使用示例
-
加载硬负样本: python dataset = load_dataset("MarcGrumpyOlejak/LCC_deu_news_1M_bt", "2024-triplet-5", split="train")
-
加载评分集: python dataset = load_dataset("MarcGrumpyOlejak/LCC_deu_news_1M_bt", "0_deu_news_1M_bt_scored", split="train")
引用
bibtex @inproceedings{goldhahn-etal-2012-building, title = "Building Large Monolingual Dictionaries at the {L}eipzig Corpora Collection: From 100 to 200 Languages", author = "Goldhahn, Dirk and Eckart, Thomas and Quasthoff, Uwe", booktitle = "Proceedings of the Eighth International Conference on Language Resources and Evaluation ({LREC}12)", year = "2012", publisher = "European Language Resources Association (ELRA)", pages = "759--765" }
相关资源




