프롬프트를 감으로 짜고 있다는 걸 인정하기 싫었는데, 어느 순간부터 Claude 결과가 너무 들쑥날쑥해서 뭔가 문제가 있다는 건 알았다.
같은 작업인데 어떻게 쓰냐에 따라 결과 퀄리티가 다르더라. 근데 그게 모델 문제인지 내 프롬프트 문제인지 어떻게 구분하냐 -- 애매하게 그냥 쓰다가 찾은 게 PromptForge다.
GitHub 별 776개. Go로 만들어서 빠르다는 도구인데, 이름 뜻이 대장간(Forge)이다. 프롬프트 단조하는 작업대. 써보면 이름이 과장된 게 아니다. 데모 링크도 있지만 로컬로 띄워서 쓰는 게 편하다.
Docker 한 줄 치면 localhost:8080 에 웹 UI가 뜨고, 프롬프트 입력하면 AI가 분석을 먼저 뱉어준다. Quick Review 하면 즉각 최적화 제안이 나오고, Deep Analysis 들어가면 모범 사례 기준 점수까지 매겨준다. 점수가 나오면 어디가 약한지 명확하게 보인다. 감으로만 하던 걸 수치화해주는 거다.
제일 쓸모 있다 싶었던 건 자동 테스트 스위트 생성이다. 프롬프트 하나 정하면 테스트 케이스를 카테고리별로 자동으로 만들어준다 -- 엣지 케이스, 바이어스/안전성 저항력, 사실 정확도, 창의성 시나리오까지. 퇴근하고 Claude 시스템 프롬프트 갈아엎을 때 이거 돌려봤더니 내가 놓친 케이스가 두세 개 나왔다. 그냥 쓰던 프롬프트에서. 특정 입력 방식에 프롬프트가 무너지는 줄 몰랐던 거고, 범인이 모델이 아니었다는 것도 그때 알았다.
Claude 3.5 Sonnet이 지원 모델 목록에 있고, GPT-4.1이랑 O3, Azure OpenAI, 로컬 Ollama까지 같은 화면에서 나란히 비교 테스트를 돌릴 수 있다. 같은 프롬프트 넣고 Claude 결과랑 GPT 결과 옆에 두면 어떤 작업에서 어떤 모델이 강한지 패턴이 잡히기 시작한다. 코드 프롬프트랑 글쓰기 프롬프트가 같은 모델에서도 최적화 방향이 달라서, 이거 비교하다 보면 생각보다 오래 보게 된다.
버전 관리도 된다. 잘 됐던 프롬프트 날려먹지 않는다는 게 혼자 굴릴 때 생각보다 중요한데, 그동안 노션이랑 메모장 왔다갔다 하면서 버전 꼬이는 걸 여러 번 겪어봐서 이게 얼마나 아픈지 안다. 실행 이력 필터링 검색도 되고, 내보내기/가져오기도 있다. 프롬프트 라이브러리 관리가 이렇게 편해질 수 있구나 싶었다.
이 도구가 필요 없는 경우도 있다. 프롬프트 두세 개만 쓰는 수준이면 그냥 Claude한테 '이 프롬프트 피드백 줘' 해도 충분하다. 이건 프롬프트를 제품처럼 관리해야 하는 상황, 결과가 들쑥날쑥한 원인을 추적해야 하는 상황에서 진가가 나온다.
Claude가 왜 이렇게 답했지 싶을 때, 범인이 모델이 아니라 내 프롬프트인 경우가 생각보다 많다. 근데 이 말에 '아니 Claude 자체가 원래 그런 거 아니야?' 하고 바로 반박하는 사람도 있을 것 같다.
출처: GitHub — insaaniManav/prompt-forge