未來派服務器架構與機器人手臂修剪電纜

記憶的錯覺：對話狀態的隱形成本

如果你曾與 AI 進行過一次漫長且高效的協作——例如調試一個複雜系統或規劃一個架構——你可能體驗過這種「記憶的錯覺」。你提出一個後續問題，模型回答得就像它記得你十分鐘前寫的每一行代碼一樣。

事實上，它並不記得。

大型語言模型（LLM）從定義上來說是無狀態的（Stateless）。每當你按下「Enter」鍵時，模型都是第一次見到你。它之所以看起來記得過去，唯一的理由是應用程序線束（Harness，即你與之交互的軟件）正默默地將你整個對話副本附加在你的新問題之前。

這種方法很簡單，但也極其低效。隨著對話的深入，你的「上下文膨脹」（Context Bloat）也會隨之增長。

問題所在：副本債務

當一個對話或編碼項目涉及數十次往返時，「線束」被迫在每次查詢中發送一個龐大且不斷增長的歷史區塊。

這會導致三個關鍵故障：

如果你正在構建代理工作流（Agentic Workflows）或長期的編碼會話，你需要停止傳遞原始副本，並開始管理狀態（State）。以下是最有效的實踐方案。

第一道防線是原始縮減。大多數對話歷史都充滿了對 Transformer 模型來說毫無訊號的語言「填充物」。

智能原始人邏輯： 受到 Matt Pocock 的 Caveman 技能啟發，這種模式通過捨棄冠詞（a/an/the）、禮貌用語和模稜兩可的辭令，在保持完整技術準確性的同時，減少約 75% 的 Token 使用量。
規則： 「保留所有技術實質，除去所有廢話。」使用簡短的同義詞（例如用「fix」代替「implement a solution」）、常見縮寫（DB、auth、fn、config）以及表示因果關係的符號（X -> Y）。
有損壓縮： 在將歷史記錄傳遞給主模型之前，使用一個更小、更快的模型來剝離歷史記錄中的形容詞和「禮貌用語」。如果用戶說：「我認為我們處理 S3 存儲桶 OAC 策略的方式可能有一個 Bug，你能看看嗎？」，壓縮後的歷史記錄應簡化為：「檢查 S3 OAC 策略 Bug。」

不要保留整個副本，而是使用滑動窗口。

停止以副本的方式思考，開始以**知識圖譜（Knowledge Graphs）**的方式思考。與其依賴 LLM 在 20 頁的聊天記錄中尋找你的項目需求，不如維護一個「系統狀態」塊。現代工具正透過將整個代碼庫外部化為可查詢的圖譜，將這一點推向極致。

GitNexus ¹ 充當代理的「神經系統」，提供客戶端知識圖譜，實現深層代碼探索，而不會淹沒上下文窗口。
Graphify ² 讓你能夠將代碼、SQL 模式和基礎設施統一到一個可查詢的圖譜中，為代理提供世界的結構化「地圖」，而非一堆扁平的文件。隨著對話的推進，代理會根據新的決策、依賴關係和約束條件更新這個「狀態」。你只需傳遞當前的「世界狀態」加上即時的新問題。

如果你的歷史記錄確實非常龐大（跨越數週的項目），請使用檢索增強生成（RAG）。將你過去的對話內容存儲在向量數據庫中。當有新問題出現時，僅從歷史記錄中檢索前 3 個最相關的「記憶」。這可以在不支付上下文窗口稅的情況下實現長期一致性。

當代理調用工具（如 ls 或 grep）並獲得 1,000 行的結果時，不要將該結果注入歷史記錄中。將結果存儲在臨時緩存中，並返回一個引用 ID（例如 RESULT_ID: 42）。代理稍後僅從該 ID 中讀取它需要的特定行。這可以防止你的上下文窗口被原始工具輸出淹沒。

如果你是普通用戶（而非開發者），且感覺你的 AI 開始變得遲鈍或混亂，你可以親自強制執行一次狀態管理。

當會話過長時，請複製並發送以下內容：

「請將我們目前的進展、所有已作出的技術決策以及當前的項目狀態總結為一個簡潔的區塊。然後，我們將捨棄之前的對話歷史，並以這份總結作為下一個任務的新起點。」

大多數現代 LLM 界面（以及許多代理線束）現在都提供了 「存檔」（Archive） 或 「修剪」（Prune） 選項。請善用它。一旦某個子任務完成，請刪除相關消息或開啟新對話。你的目標是讓模型的「工作記憶」僅聚焦於當前的問題，而不是導致你走到這一步的那三個小時的調試過程。

對話「記憶」是一個昂貴的錯覺。如果你將其視為不斷增長的副本，你將面臨性能瓶頸。

真正的效率源於遺忘。通過積極地修剪、摘要和外部化你的歷史記錄，你可以確保 LLM 將其有限的「注意力」集中在真正重要的事情上：你的下一個問題。

你是在管理你的狀態，還是在一遍又一遍地為同一個副本付費？