不建议在第三方平台使用LLM

最近发现,官网的 Claude 似乎表现比 POE,302.ai 的强得多。不确定是不是自己的错觉,感觉很奇怪,便研究了一下。

Image

主要原因猜测是 API 调用链路差异,以及prompt可能不同。

官网版本的调用链路: 用户输入 → Anthropic官网前端 → Anthropic API → Claude模型 → 返回结果

第三方平台的调用链路: 用户输入 → 第三方平台前端 → 第三方平台后端 → Anthropic API → Claude模型 → 返回结果 → 第三方平台后端→第三方平台前端 → 展示

按理说,多封装一层 API 并不影响大模型的性能。但是第三方平台可能倾向于更短的回答以节省 prompt;修改了 AI 安全;上下文记忆没有正确设置和处理,等等原因,最后的结果是,性能受到影响。现在 LLM 的涌现仍很复杂,输入微小的不同,就很可能大幅影响输出。

此外第三方平台可能设置了自己的 prompt,或者是 Anthropic 优化了官网版的 Claude,也影响了结果。典型例子就是302.ai。

如果使用dify.ai, langchain等中间件平台,我尚不确定对 LLM 性能有什么影响。

因此,为了体验到最佳性能,建议不要使用第三方平台的 LLM,直接在官网使用。