shershen/ru_anglicism
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shershen/ru_anglicism
下载链接
链接失效反馈官方服务:
资源简介:
Ru Anglicism数据集用于检测和替换俄语句子中的英语借词。数据来源于俄罗斯国家语料库、Habr和Pikabu,句子中的英语借词被自动解析,并且每个句子的改写是手动创建的。数据集包含四个字段:word(单词)、form(形式)、sentence(句子)和paraphrase(改写)。数据集分为训练集和测试集,分别包含1007和77个句子。数据集的语言为俄语,适用于文本生成和文本到文本生成任务。
Ru Anglicism数据集用于检测和替换俄语句子中的英语借词。数据来源于俄罗斯国家语料库、Habr和Pikabu,句子中的英语借词被自动解析,并且每个句子的改写是手动创建的。数据集包含四个字段:word(单词)、form(形式)、sentence(句子)和paraphrase(改写)。数据集分为训练集和测试集,分别包含1007和77个句子。数据集的语言为俄语,适用于文本生成和文本到文本生成任务。
提供机构:
shershen
原始信息汇总
数据集概述
数据集名称
- Ru Anglicism
许可证
- Apache-2.0
数据集特征
- word: 字符串类型
- form: 字符串类型
- sentence: 字符串类型
- paraphrase: 字符串类型
数据集结构
- 训练集: 1007个实例,480909字节
- 测试集: 77个实例,42006字节
数据集大小
- 下载大小: 290128字节
- 数据集大小: 522915字节
任务类别
- 文本生成
- 文本到文本生成
语言
- 俄语
大小类别
- 1K<n<10K



