five

cstr/de-wiktionary-extracted-full

收藏
Hugging Face2025-11-19 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/cstr/de-wiktionary-extracted-full
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 task_categories: - text-retrieval language: - de tags: - wiktionary - dictionary - german size_categories: - 100K<n<1M dataset_info: features: - name: word dtype: string - name: pos dtype: string - name: pos_title dtype: string - name: lang_code dtype: string - name: lang dtype: string - name: senses list: - name: alt_of list: - name: word dtype: string - name: categories list: string - name: examples list: - name: accessdate dtype: string - name: author dtype: string - name: collection dtype: string - name: comment dtype: string - name: date dtype: string - name: day dtype: string - name: edition dtype: string - name: editor dtype: string - name: isbn dtype: string - name: italic_text_offsets list: list: int64 - name: month dtype: string - name: number dtype: string - name: pages dtype: string - name: place dtype: string - name: publisher dtype: string - name: raw_tags list: string - name: ref dtype: string - name: tags list: string - name: text dtype: string - name: title dtype: string - name: title_complement dtype: string - name: translation dtype: string - name: translator dtype: string - name: url dtype: string - name: volume dtype: string - name: year dtype: string - name: form_of list: - name: word dtype: string - name: glosses list: string - name: raw_tags list: string - name: sense_index dtype: string - name: tags list: string - name: topics list: string - name: translations list: - name: lang dtype: string - name: lang_code dtype: string - name: other dtype: string - name: raw_tags list: string - name: roman dtype: string - name: sense dtype: string - name: sense_index dtype: string - name: tags list: string - name: uncertain dtype: bool - name: word dtype: string - name: sounds list: - name: audio dtype: string - name: flac_url dtype: string - name: ipa dtype: string - name: mp3_url dtype: string - name: oga_url dtype: string - name: ogg_url dtype: string - name: raw_tags list: string - name: rhymes dtype: string - name: tags list: string - name: wav_url dtype: string - name: synonyms list: - name: raw_tags list: string - name: sense_index dtype: string - name: tags list: string - name: topics list: string - name: word dtype: string - name: tags list: string - name: categories list: string - name: etymology_texts list: string - name: forms list: - name: form dtype: string - name: pronouns list: string - name: raw_tags list: string - name: sense_index dtype: string - name: source dtype: string - name: tags list: string - name: topics list: string - name: hyphenations list: - name: parts list: string splits: - name: train num_bytes: 2367263359 num_examples: 971941 download_size: 301192017 dataset_size: 2367263359 configs: - config_name: default data_files: - split: train path: data/train-* ---

许可协议:CC BY-SA 4.0(知识共享署名-相同方式共享4.0) 任务类别: - 文本检索(text-retrieval) 语言: - 德语(de) 标签: - 维基词典(Wiktionary) - 词典(dictionary) - 德语(german) 规模类别: - 100K<n<1M 数据集信息(dataset_info): 特征(features): - 名称:word(单词),数据类型:string(字符串) - 名称:pos(词性,part of speech),数据类型:string - 名称:pos_title(词性标题),数据类型:string - 名称:lang_code(语言代码),数据类型:string - 名称:lang(语言),数据类型:string - 名称:senses(义项),为列表,包含: - 名称:alt_of(另形词),为列表,包含: - 名称:word(单词),数据类型:string - 名称:categories(分类),数据类型:string列表 - 名称:examples(示例),为列表,包含: - 名称:accessdate(访问日期),数据类型:string - 名称:author(作者),数据类型:string - 名称:collection(合集),数据类型:string - 名称:comment(注释),数据类型:string - 名称:date(日期),数据类型:string - 名称:day(日),数据类型:string - 名称:edition(版本),数据类型:string - 名称:editor(编辑),数据类型:string - 名称:isbn(国际标准书号ISBN),数据类型:string - 名称:italic_text_offsets(斜体文本偏移量),数据类型:int64类型嵌套列表 - 名称:month(月),数据类型:string - 名称:number(编号),数据类型:string - 名称:pages(页码),数据类型:string - 名称:place(出版地),数据类型:string - 名称:publisher(出版社),数据类型:string - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:ref(参考文献),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:text(文本),数据类型:string - 名称:title(标题),数据类型:string - 名称:title_complement(标题补充),数据类型:string - 名称:translation(译文),数据类型:string - 名称:translator(译者),数据类型:string - 名称:url(统一资源定位符URL),数据类型:string - 名称:volume(卷册),数据类型:string - 名称:year(年),数据类型:string - 名称:form_of(词形变化),为列表,包含: - 名称:word(单词),数据类型:string - 名称:glosses(释义),数据类型:string列表 - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:sense_index(义项索引),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:topics(主题),数据类型:string列表 - 名称:translations(译文),为列表,包含: - 名称:lang(语言),数据类型:string - 名称:lang_code(语言代码),数据类型:string - 名称:other(其他),数据类型:string - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:roman(罗马音转写),数据类型:string - 名称:sense(义项),数据类型:string - 名称:sense_index(义项索引),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:uncertain(不确定标记),数据类型:布尔型(bool) - 名称:word(单词),数据类型:string - 名称:sounds(语音信息),为列表,包含: - 名称:audio(音频),数据类型:string - 名称:flac_url(FLAC格式音频链接),数据类型:string - 名称:ipa(国际音标IPA),数据类型:string - 名称:mp3_url(MP3格式音频链接),数据类型:string - 名称:oga_url(OGA格式音频链接),数据类型:string - 名称:ogg_url(OGG格式音频链接),数据类型:string - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:rhymes(押韵词),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:wav_url(WAV格式音频链接),数据类型:string - 名称:synonyms(同义词),为列表,包含: - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:sense_index(义项索引),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:topics(主题),数据类型:string列表 - 名称:word(单词),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:categories(分类),数据类型:string列表 - 名称:etymology_texts(词源文本),数据类型:string列表 - 名称:forms(词形),为列表,包含: - 名称:form(词形形式),数据类型:string - 名称:pronouns(代词),数据类型:string列表 - 名称:raw_tags(原始标签),数据类型:string列表 - 名称:sense_index(义项索引),数据类型:string - 名称:source(来源),数据类型:string - 名称:tags(标签),数据类型:string列表 - 名称:topics(主题),数据类型:string列表 - 名称:hyphenations(断字规则),为列表,包含: - 名称:parts(拆分部分),数据类型:string列表 划分集(splits): - 名称:train(训练集),字节数:2367263359,样本数:971941 下载大小:301192017,数据集总大小:2367263359 配置项(configs): - 配置名称:default(默认配置),数据文件: - 划分集:train,路径:data/train-*
提供机构:
cstr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作