cstr/de-wiktionary-extracted-full
收藏Hugging Face2025-11-19 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/cstr/de-wiktionary-extracted-full
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
task_categories:
- text-retrieval
language:
- de
tags:
- wiktionary
- dictionary
- german
size_categories:
- 100K<n<1M
dataset_info:
features:
- name: word
dtype: string
- name: pos
dtype: string
- name: pos_title
dtype: string
- name: lang_code
dtype: string
- name: lang
dtype: string
- name: senses
list:
- name: alt_of
list:
- name: word
dtype: string
- name: categories
list: string
- name: examples
list:
- name: accessdate
dtype: string
- name: author
dtype: string
- name: collection
dtype: string
- name: comment
dtype: string
- name: date
dtype: string
- name: day
dtype: string
- name: edition
dtype: string
- name: editor
dtype: string
- name: isbn
dtype: string
- name: italic_text_offsets
list:
list: int64
- name: month
dtype: string
- name: number
dtype: string
- name: pages
dtype: string
- name: place
dtype: string
- name: publisher
dtype: string
- name: raw_tags
list: string
- name: ref
dtype: string
- name: tags
list: string
- name: text
dtype: string
- name: title
dtype: string
- name: title_complement
dtype: string
- name: translation
dtype: string
- name: translator
dtype: string
- name: url
dtype: string
- name: volume
dtype: string
- name: year
dtype: string
- name: form_of
list:
- name: word
dtype: string
- name: glosses
list: string
- name: raw_tags
list: string
- name: sense_index
dtype: string
- name: tags
list: string
- name: topics
list: string
- name: translations
list:
- name: lang
dtype: string
- name: lang_code
dtype: string
- name: other
dtype: string
- name: raw_tags
list: string
- name: roman
dtype: string
- name: sense
dtype: string
- name: sense_index
dtype: string
- name: tags
list: string
- name: uncertain
dtype: bool
- name: word
dtype: string
- name: sounds
list:
- name: audio
dtype: string
- name: flac_url
dtype: string
- name: ipa
dtype: string
- name: mp3_url
dtype: string
- name: oga_url
dtype: string
- name: ogg_url
dtype: string
- name: raw_tags
list: string
- name: rhymes
dtype: string
- name: tags
list: string
- name: wav_url
dtype: string
- name: synonyms
list:
- name: raw_tags
list: string
- name: sense_index
dtype: string
- name: tags
list: string
- name: topics
list: string
- name: word
dtype: string
- name: tags
list: string
- name: categories
list: string
- name: etymology_texts
list: string
- name: forms
list:
- name: form
dtype: string
- name: pronouns
list: string
- name: raw_tags
list: string
- name: sense_index
dtype: string
- name: source
dtype: string
- name: tags
list: string
- name: topics
list: string
- name: hyphenations
list:
- name: parts
list: string
splits:
- name: train
num_bytes: 2367263359
num_examples: 971941
download_size: 301192017
dataset_size: 2367263359
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
许可协议:CC BY-SA 4.0(知识共享署名-相同方式共享4.0)
任务类别:
- 文本检索(text-retrieval)
语言:
- 德语(de)
标签:
- 维基词典(Wiktionary)
- 词典(dictionary)
- 德语(german)
规模类别:
- 100K<n<1M
数据集信息(dataset_info):
特征(features):
- 名称:word(单词),数据类型:string(字符串)
- 名称:pos(词性,part of speech),数据类型:string
- 名称:pos_title(词性标题),数据类型:string
- 名称:lang_code(语言代码),数据类型:string
- 名称:lang(语言),数据类型:string
- 名称:senses(义项),为列表,包含:
- 名称:alt_of(另形词),为列表,包含:
- 名称:word(单词),数据类型:string
- 名称:categories(分类),数据类型:string列表
- 名称:examples(示例),为列表,包含:
- 名称:accessdate(访问日期),数据类型:string
- 名称:author(作者),数据类型:string
- 名称:collection(合集),数据类型:string
- 名称:comment(注释),数据类型:string
- 名称:date(日期),数据类型:string
- 名称:day(日),数据类型:string
- 名称:edition(版本),数据类型:string
- 名称:editor(编辑),数据类型:string
- 名称:isbn(国际标准书号ISBN),数据类型:string
- 名称:italic_text_offsets(斜体文本偏移量),数据类型:int64类型嵌套列表
- 名称:month(月),数据类型:string
- 名称:number(编号),数据类型:string
- 名称:pages(页码),数据类型:string
- 名称:place(出版地),数据类型:string
- 名称:publisher(出版社),数据类型:string
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:ref(参考文献),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:text(文本),数据类型:string
- 名称:title(标题),数据类型:string
- 名称:title_complement(标题补充),数据类型:string
- 名称:translation(译文),数据类型:string
- 名称:translator(译者),数据类型:string
- 名称:url(统一资源定位符URL),数据类型:string
- 名称:volume(卷册),数据类型:string
- 名称:year(年),数据类型:string
- 名称:form_of(词形变化),为列表,包含:
- 名称:word(单词),数据类型:string
- 名称:glosses(释义),数据类型:string列表
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:sense_index(义项索引),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:topics(主题),数据类型:string列表
- 名称:translations(译文),为列表,包含:
- 名称:lang(语言),数据类型:string
- 名称:lang_code(语言代码),数据类型:string
- 名称:other(其他),数据类型:string
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:roman(罗马音转写),数据类型:string
- 名称:sense(义项),数据类型:string
- 名称:sense_index(义项索引),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:uncertain(不确定标记),数据类型:布尔型(bool)
- 名称:word(单词),数据类型:string
- 名称:sounds(语音信息),为列表,包含:
- 名称:audio(音频),数据类型:string
- 名称:flac_url(FLAC格式音频链接),数据类型:string
- 名称:ipa(国际音标IPA),数据类型:string
- 名称:mp3_url(MP3格式音频链接),数据类型:string
- 名称:oga_url(OGA格式音频链接),数据类型:string
- 名称:ogg_url(OGG格式音频链接),数据类型:string
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:rhymes(押韵词),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:wav_url(WAV格式音频链接),数据类型:string
- 名称:synonyms(同义词),为列表,包含:
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:sense_index(义项索引),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:topics(主题),数据类型:string列表
- 名称:word(单词),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:categories(分类),数据类型:string列表
- 名称:etymology_texts(词源文本),数据类型:string列表
- 名称:forms(词形),为列表,包含:
- 名称:form(词形形式),数据类型:string
- 名称:pronouns(代词),数据类型:string列表
- 名称:raw_tags(原始标签),数据类型:string列表
- 名称:sense_index(义项索引),数据类型:string
- 名称:source(来源),数据类型:string
- 名称:tags(标签),数据类型:string列表
- 名称:topics(主题),数据类型:string列表
- 名称:hyphenations(断字规则),为列表,包含:
- 名称:parts(拆分部分),数据类型:string列表
划分集(splits):
- 名称:train(训练集),字节数:2367263359,样本数:971941
下载大小:301192017,数据集总大小:2367263359
配置项(configs):
- 配置名称:default(默认配置),数据文件:
- 划分集:train,路径:data/train-*
提供机构:
cstr



