Textual Frequency Paired Dataset (TFPD)

Name: Textual Frequency Paired Dataset (TFPD)
Creator: FaceMind公司; 香港中文大学
Published: 2026-04-02 23:39:25
License: 暂无描述

arXiv2026-04-02 更新2026-04-04 收录

下载链接：

https://github.com/HongyuanLuke/frequencylaw

下载链接

链接失效反馈

官方服务：

资源简介：

TFPD是由FaceMind公司和香港中文大学联合构建的文本频率配对数据集，包含数学推理（GSM8K）、机器翻译（FLORES-200）、常识推理和工具调用四个任务。数据集通过GPT-4o-mini生成高频和低频表达的句子对，并经过严格的人工语义一致性验证，最终保留738对数学推理和526对机器翻译数据。该数据集旨在研究文本频率对大型语言模型提示和微调的影响，为解决模型在语义相同但表达频率不同的文本上表现差异的问题提供基准。

提供机构：

FaceMind公司; 香港中文大学

创建时间：

2026-04-02

原始信息汇总

FrequencyLaw 数据集概述

数据集基本信息

数据集名称：FrequencyLaw: Textual Frequency Law on Large Language Models
官方代码库地址：https://github.com/HongyuanLuke/frequencylaw
关联论文：Textual Frequency Law on Large Language Models

数据集核心内容与目的

该数据集是论文《Textual Frequency Law on Large Language Models》的官方代码库及数据资源。其核心目的是验证文本频率对大语言模型在数学推理和机器翻译任务上的优化效果。数据集基于GSM8K（数学推理）和FLORES-200（机器翻译）构建了文本频率配对数据集，用于支持论文中提出的三种核心方法的实现与实验复现。

数据集包含的核心方法

文本频率定律：文本频率的计算方法。
文本频率蒸馏：通过蒸馏优化文本频率。
课程文本频率训练：基于频率的课程学习训练策略。

数据集文件结构

数据集主要包含以下文件与目录：

核心数据集文件 (`datasets/`)

csqa-highfrequency.txt：CSQA高频数学问题。
csqa-lowfrequency.txt：CSQA低频数学问题。
gsm8k-highfrequency.txt：GSM8K高频数学问题。
gsm8k-lowfrequency.txt：GSM8K低频数学问题。

机器翻译微调模块 (`MT-SFT/`)

data/：机器翻译任务数据存储目录。
merge.py：数据合并脚本。
sort_frequency.py：频率排序工具。
runmodel.py：运行微调后的模型权重。

核心功能脚本

frequency.py：文本频率计算核心脚本（实现TFL）。
newfrequency.py：TFD蒸馏后重新计算频率。
get_correct_answer.py：数学推理答案验证。
issame.py：语义一致性检查（用于数据集构建）。
judge.py：模型输出自动评估。
readdata.py：数据集加载工具。
rephrase.py：文本释义生成（高/低频版本）。
reply_mr.py：数学推理模型推理。
reply_mt.py：机器翻译模型推理。

支持的任务

数学推理
机器翻译

环境依赖

Python: 3.9+
PyTorch: 2.0+
核心库: Hugging Face Transformers/Datasets/Accelerate, NumPy/Pandas, LoRA (peft)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，文本频率对大型语言模型性能的影响尚属未充分探索的课题。为系统研究此问题，研究团队精心构建了文本频率配对数据集。该数据集的构建基于GSM8K、FLORES-200和CommonsenseQA三个经典基准，通过GPT-4o-mini对原始英文句子进行自动化改写，生成包含高频与低频表达的两组释义变体。为确保语义一致性，所有生成句子均经过三位语言学背景的专业标注员进行严格人工验证，仅保留三方均判定为语义完全一致的样本对，最终形成包含数学推理、机器翻译、常识推理和工具调用四个任务的配对数据集。

使用方法

该数据集主要应用于验证文本频率定律及其相关训练框架的有效性。研究者可通过对比模型在高低频版本上的表现差异，实证分析频率对提示工程和微调效果的影响。具体而言，在提示工程场景中，可将高频版本作为输入以提升模型推理准确性；在微调场景中，可采用课程文本频率训练策略，按频率从低到高的顺序组织训练数据，以优化模型收敛效果。数据集还可用于评估文本频率蒸馏方法的性能，通过模型生成的故事补全数据来增强频率估计的准确性。

背景与挑战

背景概述

文本频率配对数据集（TFPD）由FaceMind Corporation与香港中文大学的研究团队于2026年提出，旨在探索文本频率与大型语言模型性能之间的关联。该数据集基于文本频率定律（TFL）构建，核心研究问题聚焦于验证高频文本表达在提示与微调场景中对模型表现的促进作用。通过整合数学推理、机器翻译、常识推理及工具调用等多任务语料，TFPD为研究文本频率对模型理解与生成能力的影响提供了标准化评估基准，推动了数据频率优化在自然语言处理领域的理论探索与应用实践。

当前挑战

TFPD所应对的领域挑战在于揭示文本频率与模型性能之间的内在规律，尤其在语义等价的复述表达中，高频文本能否显著提升模型输出的准确性与稳定性。构建过程中的主要挑战包括：首先，需在保持语义一致的前提下，通过自动生成与人工标注相结合的方式，精准筛选高频与低频复述对，以克服自动复述可能引发的语义漂移问题；其次，针对闭源模型训练数据不可获取的局限，需设计基于开放资源的句子级频率估计方法，并利用故事补全技术进行频率蒸馏，以增强估计的可靠性。

常用场景

经典使用场景

在大型语言模型（LLM）的研究领域，文本频率配对数据集（TFPD）为探索文本频率与模型性能之间的关系提供了关键实验平台。该数据集通过精心构建的高频与低频文本对，支持对数学推理、机器翻译、常识推理及工具调用等任务进行系统性评估。研究者在设计提示工程或微调策略时，可依据TFPD验证文本频率定律（TFL）的有效性，即相同语义下高频文本表达能显著提升LLM的生成质量与任务准确率。

解决学术问题

TFPD核心解决了大型语言模型中文本频率影响机制的量化分析难题。传统研究多关注数据质量或规模，而该数据集首次系统化揭示了句子级频率与模型理解能力之间的正相关关系，为优化提示设计、微调数据选择及课程学习策略提供了实证基础。其意义在于推动了频率感知的训练与推理范式，促使学界重新审视数据分布对模型泛化性能的深层影响，为提升低资源语言任务及复杂推理场景的效能开辟了新路径。

实际应用

在实际应用中，TFPD指导了高效提示工程与资源受限环境下的模型微调。例如，在机器翻译系统中，依据该数据集筛选高频表达作为输入，可显著提升多语言翻译的BLEU与chrF分数；在数学解题场景中，将问题陈述转化为更常见的词汇组合，能增强链式推理的连贯性与答案准确性。这些实践不仅降低了模型部署的计算开销，也为教育辅助、跨语言客服等现实场景提供了鲁棒性更强的自然语言处理解决方案。

数据集最近研究