CPCF

github2022-02-19 更新2024-05-31 收录

下载链接：

https://github.com/WenjiaoYIN/CPCF

下载链接

链接失效反馈

官方服务：

资源简介：

政治外宣类汉法句平行语料库及词典，包含汉法双语语料、元信息、分词、词性赋码、语义标注等多种处理后的数据。

A parallel corpus and dictionary for political external propaganda in Chinese and French, including bilingual Chinese-French corpora, metadata, word segmentation, part-of-speech tagging, semantic annotation, and other processed data.

创建时间：

2022-02-04

原始信息汇总

数据集概述

数据集名称

CPCF：政治外宣类汉法句平行语料库及词典

数据集结构

一级目录：CPCF_all

CFPC_all_metadata.xlsx：元信息汇总
CPCF_all_bilingual_utf-8.txt：汉法句平行双语总语料
CPCF_all_chinese_utf-8.txt：中文总语料
CPCF_all_french_utf-8.txt：法文总语料

一级目录：CPCF_separate

01.CPCF_bilingual_sents_txt_utf-8：汉法句平行双语语料
02.CPCF_chinese_sents_txt_utf-8：中文语料
03.CPCF_french_sents_txt_utf_8：法文语料
04.CPCF_aligner_ata：使用软件ABBYY Aligner制作的汉法句平行语料
05.CPCF_metadata_txt_utf-8：语料的元信息
06.CPCF_chinese_tokenization_jieba_txt_utf-8：使用jieba分词之后的中文语料
07.CPCF_chinese_tokenization_spacy_txt_utf-8：使用spaCy分词之后的中文语料
08.CPCF_french_tokenization_spacy_txt_utf-8：使用spaCy分词之后的法文语料
09.CPCF_chinese_pos_txt_utf-8：词性赋码后中文语料
10.CPCF_french_pos_lemma_txt_utf-8：词性赋码、词形还原后法文语料
11.CPCF_french_semantic_txt_utf-8：语义标注后法文语料
12.CPCF_french_sentiment_txt_utf-8：情感标注后法文语料
13.CPCF_chinese_parser_txt_utf-8：句法标注后中文语料
14.CPCF_french_parser_txt_utf-8：句法标注后法文语料
15.CPCF_french_morphology_txt_utf-8：形态标注后法文语料
16.CPCF_chinese_named_entity_txt_utf-8：命名实体标注后中文语料
17.CPCF_french_named_entity_txt_utf-8：命名实体标注后法文语料

一级目录：CPCF_statistics

CPCF_all_statistics：中文语料总词频、法文语料总词频、中文语料句长、总TTR/sTTR统计、中文语料总词性统计、法文语料总词性统计
01.CPCF_statistics_chinese_ttr_txt_utf-8：中文语料TTR统计
02.CPCF_statistics_french_ttr_txt_utf-8：法文语料TTR统计
03.CPCF_statistics_chinese_sttr_txt_utf-8：中文语料sTTR统计
04.CPCF_statistics_french_sttr_txt_utf-8：法文语料sTTR统计
05.CPCF_statistics_chinese_freq_raw_txt_utf-8：未经处理的中文语料词频统计
06.CPCF_statistics_chinese_freq_without_stop_words_txt_utf-8：去掉停用词后的中文语料词频统计
07.CPCF_statistics_french_freq_raw_txt_utf-8：未经处理的法文语料词频统计
08.CPCF_statistics_french_freq_lemma_txt_utf-8：词形还原后的法文语料词频统计
09.CPCF_statistics_french_freq_without_stop_words_txt_utf-8：词形还原且去掉停用词后的法文语料词频统计
10.CPCF_statistics_chinese_pos_freq_txt_utf-8：中文语料词性统计
11.CPCF_statistics_french_pos_freq_txt_utf-8：法文语料词性统计
12.CPCF_statistics_french_semantic_freq_txt_utf-8：法文语料语义标注统计
13.CPCF_statistics_french_mean_length_txt_utf-8：法文语料平均句长统计
14.CPCF_statistics_french_sentiment_freq_txt_utf-8：法文语料情感标注统计
15.CPCF_statistics_chinese_named_entity_freq_txt_utf-8：中文语料命名实体标注统计
16.CPCF_statistics_french_named_entity_freq_txt_utf-8：法文语料命名实体标注统计
17.CPCF_statistics_chinese_punctuation_freq_txt_utf-8：中文语料标点符号统计
18.CPCF_statistics_french_punctuation_freq_txt_utf-8：法文语料标点符号统计

一级目录：CPCF_python_scripts

01.CPCF_tokenization_fr_zh.py：中文和法文分词脚本
02.CPCF_pos_tagging_fr_zh.py：中文和法文词性赋码脚本
03.CPCF_sentiment_tagging_fr.py：法文情感标注脚本
04.CPCF_morphology_tagging_fr.py：法文形态标注脚本
05.CPCF_ner_tagging_fr_zh.py：中文和法文命名实体标注脚本
06.CPCF_parser_tagging_fr_zh.py：中文和法文句法标注脚本
07.CPCF_semantic_tagging_fr.py：法文语义标注脚本
08.CPCF_statistics_mean_length_fr.py：法文语料平均句长统计脚本
09.CPCF_statistics_pos_freq_fr_zh.py：中文和法文词性统计脚本
10.CPCF_statistics_punctuation_freq_fr_zh.py：中文和法文标点符号统计脚本
11.CPCF_statistics_ttr_sttr_fr_zh.py：中文和法文语料TTR和sTTR统计脚本
12.CPCF_statistics_word_freq_fr_zh.py：中文和法文语料词频统计脚本
13.CPCF_electronic_dictionary.py：电子词典制作脚本

一级目录：CPCF_electronic_dictionary

CPCF_all_entries.xlsx：首期建设的30个词条
CPCF_all_electronic_dictionary.txt：电子词典（文本格式）
CPCF_all_electronic_dictionary.eudic：电子词典（《法语助手》格式）

一级目录：CPCF_reference

french_semantic_lexicon.txt：法文语义标注词典
french_semantic_terms.txt：法文情感标注项目
french_sentiment_dict.txt：法文情感标注词典

数据集内容

语料类型：汉法句平行双语语料、中文语料、法文语料
处理类型：分词、词性赋码、词形还原、语义标注、情感标注、句法标注、形态标注、命名实体标注、词频统计、句长统计、标点符号统计
工具和脚本：使用jieba、spaCy、ABBYY Aligner等工具进行语料处理，提供多种Python脚本进行数据分析和电子词典制作
电子词典：包含30个词条，提供文本格式和《法语助手》格式

数据集用途

研究：用于语言学研究，特别是汉法双语对比研究、语料库语言学、机器翻译等领域
教学：辅助汉法双语教学，提供丰富的双语语料和词典资源
开发：为开发汉法双语处理工具和应用提供数据支持

搜集汇总

数据集介绍

构建方式

CPCF数据集的构建依托于政治外宣领域的汉法双语平行语料，通过ABBYY Aligner等专业对齐工具对汉法句子进行精确对齐，确保语料的平行性和一致性。在此基础上，数据集进一步利用jieba和spaCy等分词工具对中文和法文语料进行分词处理，并通过词性赋码、词形还原、语义标注、情感标注等多层次标注技术，丰富了语料的语言学信息。此外，数据集还通过统计工具对语料的词频、句长、TTR等指标进行了详细分析，确保了数据的多样性和科学性。

特点

CPCF数据集的特点在于其多层次的语言学标注和丰富的统计信息。数据集不仅提供了汉法双语平行语料，还涵盖了词性标注、语义标注、情感标注、句法标注等多种语言学信息，为研究者提供了全面的语言分析基础。此外，数据集还通过详细的词频统计、句长分析、TTR和sTTR计算等，为语言学研究提供了丰富的量化数据支持。这些特点使得CPCF数据集在政治外宣领域的语言研究中具有重要的应用价值。

使用方法

CPCF数据集的使用方法灵活多样，研究者可以根据需求选择不同的语料和标注信息进行分析。数据集提供了完整的汉法双语平行语料，可直接用于机器翻译、双语词典构建等任务。同时，数据集中的多层次标注信息（如词性、语义、情感等）可用于语言学研究和自然语言处理模型的训练与评估。此外，数据集附带的Python脚本为研究者提供了便捷的工具，支持分词、词性标注、情感分析等操作，进一步提升了数据集的实用性和可操作性。

背景与挑战

背景概述

CPCF数据集是一个专注于政治外宣领域的汉法句平行语料库及词典，旨在为自然语言处理领域的研究者提供高质量的汉法双语语料资源。该数据集由多个子集构成，涵盖了从原始语料到经过分词、词性标注、句法分析、语义标注等多种处理步骤的语料。其核心研究问题在于如何通过大规模平行语料的构建，提升汉法双语翻译、文本分析及语言模型训练的效果。该数据集的创建为跨语言信息处理、机器翻译及多语言情感分析等领域提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

CPCF数据集在构建过程中面临多重挑战。首先，政治外宣领域的文本具有高度的专业性和复杂性，如何确保语料的准确性和一致性成为首要难题。其次，汉法两种语言在语法结构、词汇表达及文化背景上存在显著差异，对齐平行语料的过程需要克服语言间的非对称性问题。此外，数据集的标注工作涉及分词、词性标注、句法分析、语义标注等多个层次，如何保证标注的准确性和一致性，尤其是在大规模语料上实现自动化标注，仍然是一个技术难题。最后，数据集的扩展与维护也面临挑战，如何持续更新语料并保持其时效性和多样性，是未来需要解决的关键问题。

常用场景

经典使用场景

CPCF数据集在机器翻译和自然语言处理领域具有广泛的应用。其汉法句平行语料库为研究者提供了丰富的双语对照数据，特别适用于训练和评估汉法互译模型。通过使用ABBYY Aligner等工具对齐的语料，研究人员能够深入分析双语文本的句法结构和语义对应关系，从而提升翻译系统的准确性和流畅性。

实际应用

在实际应用中，CPCF数据集被广泛用于开发汉法双语词典和翻译工具。其电子词典功能支持用户快速查询词条及其义项，并提供丰富的例句参考。此外，该数据集还被应用于政治外宣文本的翻译和本地化工作，帮助提升跨文化传播的效率和准确性。

衍生相关工作

基于CPCF数据集，许多经典研究工作得以展开。例如，研究者利用其分词和词性标注数据开发了更高效的中文和法文分词工具。同时，该数据集还支持了多篇关于汉法双语语义对齐和情感分析的研究论文，为跨语言情感计算和语义理解提供了重要的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集