Bridgewater가 방금 발표한 수치들은 모든 프론티어 연구소를 긴장하게 만들 만한 것들입니다.

1

세계 최대 헤지펀드가 투자자들이 매일 하는 여섯 가지 문서 필터링 작업에서 Gemini, Claude, GPT를 테스트했습니다. 단순한 프롬프트는 약 50%의 점수를 받았습니다. 동전 던지기 수준이죠. 전문가가 작성한 프롬프트는 정확도를 78%까지 끌어올렸습니다. 투자자들은 워크플로에 시스템을 신뢰하려면 80%가 필요하다고 했는데, 어떤 프론티어 모델도 이를 넘지 못했습니다. GPT 5.4는 5.2보다 43% 더 비쌌고, 정확도도 겨우 조금 나았을 뿐입니다.

그래서 그들은 Tinker에서 Qwen3-235B를 파인튜닝했습니다. 정확도 84.7%. 최고의 프론티어 모델보다 실수가 29.8% 적었습니다. 추론 비용은 1/14 수준으로요.

가장 영리한 부분은 논문 중간에 묻혀 있습니다. 그들의 벤더가 라벨링한 훈련 데이터는 잘못된 라벨로 가득 차 있었고, 전문가 라벨링 비용은 모든 데이터에 적용하기엔 너무 비쌌습니다. 그들의 해결책: 노이즈가 섞인 데이터셋으로 모델을 훈련시킨 뒤, 그 모델을 다시 훈련 데이터에 돌려보는 거였습니다. 모델이 동의하지 않는 예시는 모두 선임 투자자들에게 라우팅됐는데, 그 이유는 예시가 진짜 어려웠거나 라벨이 틀렸기 때문입니다. 모델의 혼란이 나쁜 라벨의 탐지기가 된 셈이죠.

프롬프팅은 구조적인 이유로 한계에 부딪혔습니다. 프롬프트는 전문가가 말로 표현할 수 있는 판단만 담을 수 있습니다. 중앙은행 메모 중 실제 금리 변동을 시사하는 것에 대한 20년의 직관은 지시어로 압축되지 않습니다. 그것은 라벨링된 예시를 통해 전달됩니다.

수십 년간의 전문가 결정 데이터를 보유한 모든 기관이 이제 그 아카이브가 프론티어를 그들만의 특정 업무에서 이기는 모델을 훈련시킬 수 있다는 걸 알게 됐습니다. 알파는ずっと 서랍장 안에 있었네요.

2

To get all my takes without an algorithmic filter, subscribe to my newsletter:

https://t.co/vHdRoFmd5z