EVOPROMPT

【2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptA...】在大模型应用与插件开发中，遇到prompts不按预期工作的情况，其根本原因是SFT多指令微调的局限性。虽然SFT在一定程度上能够适应多种指令，但对于特定prompts的全面训练往往难以实现。开发者通常需要自创策略和尝试各种prompts，这是一项繁重的体力劳动，需要大量...

2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptA...

xiaohua 2025-01-17Prom EVOPROMPT ape算法 PE2 ... APE OPRO

在大模型应用与插件开发中，遇到prompts不按预期工作的情况，其根本原因是SFT多指令微调的局限性。虽然SFT在一定程度上能够适应多种指令，但对于特定prompts的全面训练往往难以实现。开发者通常需要自创策略和尝试各种prompts，这是一项繁重的体力劳动，需要大量时间搜集资料并验证方法的有效性，如加入特殊标记强调、构建思维链、采用few shot策略及设定角色等技巧。若这些方法仍无法解决问题，则可能需要依靠运气或借助自动优化手段。现今，一些自动化方法被引入，旨在根据预设的指导原则设计优化方案，以期待避免繁琐的prompt调试工作，让开发者专注于其他代码的编写。

自动prompt工程的两大主要思路是：梯度优化方法（软连续方式）与离散优化方式。前者如prefix tuning和prompt tuning，后者则通过改变大模型输入的token来优化prompt。对于大多数闭源API，采用梯度优化方法较为不切实际，离散优化方式则显得更为可行。实验表明，好的prompts能够显著提升模型性能。近期，多种自动prompt技巧的论文不断涌现，这些论文通常先通过人工或机器方式生成大量prompts，然后在测试集中验证效果，逐步筛选出高质量prompts，从而形成迭代优化过程。

以下是自动优化prompt方法的具体介绍：

APE算法采用instructGPT，通过生成一组候选指令并评估其前景，不断迭代优化，实现特定任务指令的自动生成。通过输出演示自动生成指令，执行指令得到评估分数，最终基于分数选择最优指令。

OPRO算法不仅能优化传统prompt，还适用于解决数学问题，如线性回归和旅行商问题。它通过在优化过程中生成新解并添加至meta-prompt，实现prompt优化。

PE2算法引入了step-by-step推理模板、上下文规范等概念，结合神经网络优化方法，如批量大小、步长和动量，为prompt工程提供了一种新颖的思路。PE2在多算术数据集和GSM8K数据集上分别实现了6.3%和3.1%的提升。

PromptAgent算法将优化过程抽象为强化学习的MDP，包含状态、动作、奖励和模拟等元素，旨在有效集成专家知识并探索优化空间。

对于长prompt优化，作者提出将长prompt拆分为多个句子进行逐级优化，同时结合遗传算法和LLM-Evolver进行搜索和历史示例整合，进一步提升优化效果。

自动优化prompt的方法为大模型应用带来了显著的性能提升，并有望在未来推动模型指令微调的进一步优化。这些方法通过生成多样化的prompts，针对特定任务进行优化，不仅提高了模型的准确率，也显著提升了开发效率。此外，自动优化prompt技术在跨模态生成、游戏开发等场景中展现出巨大的应用潜力。

继续阅读：2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptA...