AI 활용: 에이전트 메모리와 하네스를 점검하는 법
여러 전문가 에이전트를 구성하고 워크플로우를 설계할 때, AI가 의도대로 위임을 했는지 점검하는 일이 중요해졌습니다. Claude Code 대화 로그를 분석해 에이전트 활용도를 살펴보면서, 메모리와 하네스 설계에 대해 배우고 있는 고민을 정리해봤습니다.
coolify 자동 배포를 REST 로 떼어낸 다음, blog MCP 27개 tool 도 같은 방식으로 갈아탈 수 있을지 자문해 보았습니다. 며칠 들여다본 결론은 도구 단위 분할이었습니다.
Claude Code 대화 세션을 닫으면 stdio Playwright MCP 도 같이 종료될 줄 알았습니다. 8개 세션을 띄워두고서야 19개 프로세스 1.6GB 점유를 측정했고, LaunchAgent HTTP 상주 모델로 통합한 운영 회고입니다.
Playwright MCP 는 chrome-extension:// 컨텍스트에 직접 붙지 못합니다. chrome.* API 와 fetch 를 mock 해 익스텐션 popup 을 평범한 정적 페이지로 분장시키고, AI UI/UX 평가 하네스에 입력한 과정을 정리했습니다.
주변에서 외부 챗봇의 커스텀 기능 위에 무거운 작업을 굴리던 분이 매번 같은 자리에서 막히는 걸 보고, 그 작업의 거처를 Claude Code 위 로컬 하네스로 옮겨드린 과정. 옆에서 본 네 가지 막힘과 함께 갖춰둔 여섯 가지 패턴을 정리했습니다.
Claude Code 환경의 누적 메모리를 SQL로 다루기 위해 Neon serverless Postgres에 dual-write로 미러링한 첫 PR 작업과, 이 패턴을 다른 에이전트 메모리 영역으로 확장하려는 큰 그림에 대한 회고.
Claude Code 라우팅 매트릭스를 글로벌 CLAUDE.md 와 review-loop SKILL.md 에 박은 직후, 24행을 다시 들여다보니 fallback 으로 흘러갈 수밖에 없던 도메인 세 개가 어렵지 않게 떠올랐습니다. devops-engineer · dba · test-data-verifier 세 전문 에이전트를 더하며 만난 정의 작업의 무게를 정리한 후속편입니다.
Claude Code sub-agent 라우팅 매트릭스를 글로벌 CLAUDE.md 와 review-loop SKILL.md 두 곳에 박은 회고입니다. 같은 매트릭스를 인라인 복제하지 않은 이유와 hook 까지 가지 않은 단계적 결정 근거를 함께 적었습니다.
스킬·서브에이전트를 잔뜩 만들어놓고도 정작 일하고 있는지 확신이 없어, Claude Code 가 자동으로 쌓는 transcript jsonl 을 jq 와 bash 로 들여다봤습니다. general-purpose 비중·dormant 스킬까지 데이터로 본 자가 진단 회고입니다.
외부 서비스가 샌드박스 환경을 제공하지 않으면 자격 심사 전에는 동작을 확인할 방법이 마땅치 않습니다. AI에게 코드를 위임할 수 있게 된 지금, API 문서를 보고 우리가 직접 샌드박스 서버를 만들어보는 선택지도 진지하게 고려해볼 만하다는 생각이 들었습니다.