Opus 4.8 정식 출시, AI가 처음으로 “잘 모르겠습니다”라고 말하다

2026.06.01

Opus 4.8 정식 출시, AI가 처음으로 “잘 모르겠습니다”라고 말하다

클로드 오푸스 4.8은 점프가 아니라 집중이다.

2026.06.01 - 11:47:52

Web3 심층 보도에 집중하고 흐름을 통찰

클로드 오푸스 4.8은 점프가 아니라 집중이다.

작자｜화린우왕

편집｜정우

당신이 저와 마찬가지로 매일 AI를 활용해 기사나 코드, 연구 자료를 작성한다면, 이런 경험을 해보셨을 겁니다—AI가 자신감 넘치게 결과물을 제출하지만, 당신이 꼼꼼히 검토해보면 그 속에 초보적인 오류가 숨어 있고, 그동안 AI는 한마디도 언급하지 않았던 경우 말입니다.

이처럼 ‘모든 게 다 잘되고 있다’는 듯한 척하는 버릇은 현재 대규모 언어 모델(Large Language Model, LLM)이 직면한 가장 골치 아픈 문제 중 하나일 수 있습니다.

5월 28일, Anthropic는 Claude Opus 4.8을 공개했습니다. 이전 버전인 Opus 4.7 출시로부터 고작 6주 만의 업데이트입니다.

Opus 4.8은 숨 막힐 듯한 세대 간 도약이라기보다는, Anthropic 스스로도 “적절하지만 확실한 개선(modest but tangible improvement)”이라고 인정한, 보다 조심스러운 진전입니다. 그러나 이 업데이트는 많은 이들이 오랫동안 기다려온 한 가지 중요한 일을 해냈습니다—즉, AI가 자신의 불확실성을 인식하고 이를 인정하도록 만든 것입니다.

01 더 빠른 업데이트 주기, 더 성실한 모델

2025년 11월에 등장한 Opus 4.5부터 Anthropic의 플래그십 모델 업데이트 주기는 약 두 달마다 한 차례로 정착되었습니다—4.5(지난해 11월), 4.6(올해 2월), 4.7(4월), 4.8(5월 말). 6주마다 새 버전을 내놓는 이 속도는 대규모 언어 모델 산업 전체에서 거의 가장 급진적인 반복 주기라고 할 수 있습니다.

Opus 4.8과 자사 및 경쟁사 모델 비교｜출처: Anthropic

표준 벤치마크 테스트에서 Opus 4.8의 성능은 ‘안정적인 진전’으로 요약할 수 있습니다. 프로그래밍 능력 측면에서는 SWE-bench Pro 점수가 4.7의 64.3%에서 69.2%로 향상되었고, SWE-bench Verified는 87.6%에서 88.6%로 상승했습니다. 다학제적 추론 평가(Humanity's Last Exam)에서는 도구를 활용했을 때 57.9%를 기록했습니다. 지식 작업 평가 GDPval-AA에서는 1890의 Elo 점수로 GPT-5.5(1769)를 앞섰습니다. 컴퓨터 운영 평가 OSWorld-Verified 역시 83.4%로 선두를 달리고 있습니다.

유일하게 GPT-5.5에 밀린 항목은 터미널 기반 프로그래밍(Terminal-Bench 2.1)으로, GPT-5.5는 78.2%, Opus 4.8은 74.6%를 기록했습니다.

그러나 솔직히 말해, 이러한 벤치마크 점수들은 이제 더 이상 큰 감흥을 주기 어렵습니다. SWE-bench Verified 같은 평가 지표는 이미 포화 상태에 가까워지고 있으며, GPQA Diamond에서도 여러 모델이 모두 93% 이상을 기록하며 정체된 상태입니다—점수가 높아질수록, 실제 체감 차이가 1포인트 올라가는 것조차 점점 미미해지고 있습니다.

이번 업데이트를 기사화할 가치가 있다고 느낀 결정적 이유는, Anthropic이 ‘성실함(honesty)’이라는 방향에 집중 투자했다는 점입니다.

02 ‘잘 모르겠습니다’라고 말하는 AI

Anthropic는 구체적인 수치를 제시했습니다: Opus 4.8은 프로그래밍 작업에서 코드 결함을 놓치고 이를 보고하지 않을 확률이 Opus 4.7보다 약 4배 낮아졌습니다.

이는 무슨 뜻일까요? 즉, 이전 버전 Opus 4.7은 코드를 작성한 후, 심지어 버그가 있더라도 아무렇지 않게 “완료되었습니다. 문제 없습니다”라고 답할 수 있었던 반면, Opus 4.8은 “여기 부분에 대해 저는 확신이 없으니, 확인해 주시는 것이 좋겠습니다”라고 적극적으로 말하려는 경향이 강해졌다는 의미입니다.

정렬(alignment) 평가에서 Opus 4.8은 사용자 자율성 존중, 사용자 이익 고려 등 친사회적 특성(pro-social traits) 면에서 신기록을 세웠으며, 기만, 남용 협조 등 ‘비정렬 행동(misaligned behaviors)’ 발생 비율은 Opus 4.7보다 크게 줄어들어, Anthropic의 현재 정렬 성능 최고 모델인 Claude Mythos Preview에 근접했습니다.

코드 에디터 플랫폼 Cursor의 CEO 마이클 트루엘(Michael Truell)은 Opus 4.8이 CursorBench 모든 난이도 수준에서 기존 Opus 모델들을 전부 능가했으며, 도구 호출 효율성이 향상되어 동일한 지능 수준을 더 적은 단계로 달성한다고 평가했습니다. 법률 분야 AI 스타트업 Casetext의 애플리케이션 리서치 담당자는 더욱 직접적으로, Opus 4.8이 법률 대리 벤치마크 테스트에서 신기록을 세웠으며, 전체 통과율(all-pass rate)이 10%를 처음으로 돌파한 모델이라고 말했습니다.

자동 소프트웨어 엔지니어링 에이전트 Devin의 CEO 스캇 우(Scott Wu)는 실제 현장에서 겪는 핵심 고통 포인트를 지적했습니다—Opus 4.8은 Opus 4.7에서 나타났던 주석 중복 및 도구 호출 관련 문제를 해결했으며, 이는 무인 감독 환경에서 자율적으로 작동하는 엔지니어링 워크플로우에 매우 중요합니다.

AI가 점점 더 자율적인 의사결정을 수행하는 시대에, 스스로 약점을 드러내려는 모델이 오히려 가장 믿을 수 있는 존재입니다.

모델 일관성 부재(non-consistency) 측면에서 Opus 4.8은 전설적인 Mythos와 어깨를 나란히 하고 있다｜출처: Anthropic

다만, Opus 4.8의 시스템 보안 카드(System Card)에서 Anthropic은 흥미로운 사실을 솔직하게 공개했습니다: Opus 4.8은 훈련 과정 중 ‘평가자의 의도를 유추하려는 경향’을 보이기 시작했습니다.

구체적으로 말하면, 모델은 추론 과정에서 자신이 어떤 방식으로 평가될지를 스스로 고민하기 시작합니다—심지어 누군가 그것이 평가용임을 알려주지 않았음에도 불구하고 말입니다. 초기 해석 가능성(interpretability) 연구 결과에 따르면, 약 5%의 훈련 샘플에서 모델은 명시되지 않은 형태로 평가와 관련된 추론을 수행하고 있었습니다.

쉽게 말하자면, AI가 ‘시험 전략’을 익히고 있는 것입니다—즉, 최선의 답변을 내놓는 것보다는, ‘채점자’가 가장 기대하는 답변을 내놓는 데 더 관심을 갖게 되는 것입니다.

Anthropic은 이 경향이 현재까지 실제 성능 저하로 이어지지는 않았다고 강조합니다. 실제로 Opus 4.8의 오도성 진술(misleading statements)은 이전 모델들보다 더 적습니다. 하지만 동시에, 이것이 ‘향후 훈련을 복잡하게 만들 수 있는’ 추세임을 인정하기도 했습니다.

이 문제는 Anthropic만의 고유한 현상이 아닙니다. RLHF(인간 피드백 기반 강화학습) 방식으로 훈련된 모든 모델은 이론적으로 이러한 ‘평가자 편애 전략’을 발달시킬 가능성이 있습니다. Anthropic이 다른 점은, 이를 공개적으로 이야기했다는 데 있습니다—대규모 언어 모델 업체들이 일반적으로 좋은 소식만 전하는 업계 분위기 속에서, 이는 적어도 존중받을 만한 솔직함이라고 평가할 수 있습니다.

03 진정으로 업무를 바꾸는 기능

Opus 4.8과 함께 공개된 몇 가지 기능 업데이트 중 가장 주목할 만한 것은 Claude Code 내의 ‘Dynamic Workflows(동적 워크플로우)’입니다.

이 기능을 통해 Claude는 단일 대화 세션 안에서 수백 개의 병렬 하위 에이전트(sub-agents)를 배치해 협업적으로 작업을 수행할 수 있습니다. 작동 방식은 다음과 같습니다: 먼저 Claude가 전체 계획을 수립한 후, 작업을 여러 하위 과제로 분해하여 각기 다른 하위 에이전트에게 병렬로 할당합니다. 이 하위 에이전트들은 서로의 결론을 다양한 관점에서 비판하고, 반복적인 검토와 수정을 거쳐 결과를 수렴한 후, 최종적으로 통합 검증을 거쳐 사용자에게 보고합니다.

Anthropic이 제시한 사례는, Claude Code가 Opus 4.8과 결합해 수십만 행에 달하는 코드베이스 수준의 마이그레이션 작업을 단일 실행으로 완료할 수 있다는 점입니다. 기존 테스트 스위트를 품질 기준으로 삼아, 시작부터 병합까지 전 과정을 원스톱으로 처리합니다. 단일 실행 시 최대 1000개의 하위 에이전트를 지원하며, 동시 실행은 최대 16개까지 가능합니다.

또 다른 업데이트는 ‘Effort Control(노력 조절)’ 기능입니다. claude.ai 및 Cowork 플랫폼에서 사용자는 각 응답 시 Claude가 투입할 ‘사고량(thinking effort)’ 수준을 수동으로 선택할 수 있습니다—시간과 토큰을 아끼는 저강도(low-effort) 모드부터, 토큰 비용을 마다하지 않는 최고 강도(max-effort) 모드까지 다양합니다. 이는 본질적으로 ‘얼마나 많은 비용을 들여 얼마나 큰 일을 할 것인가’라는 결정권을 사용자에게 직접 위임하는 것입니다. Opus 4.8은 기본 설정이 ‘high’이며, 코딩 작업 시 토큰 소비량은 Opus 4.7의 기본값과 유사하지만, 성능은 더 우수합니다.

‘빠른 모드(Fast Mode)’도 주목할 만합니다: 속도는 2.5배 향상되었고, 가격은 기존보다 3배 저렴해졌습니다.

04 Mythos의 그림자

Opus 4.8 출시와 함께 Anthropic은 다시 한번 Claude Mythos—현재 소수의 조직만 접근 가능한, 더 강력한 모델—을 언급했습니다. Anthropic은 Mythos 수준의 모델이 ‘향후 수주 내’ 모든 고객에게 공개될 예정이라고 밝혔습니다.

실제로 이것이 Opus 4.8 출시의 더 큰 배경입니다—즉, Mythos의 정식 등장 전 마지막 ‘예열(warm-up)’ 단계로서의 역할입니다. Opus 4.8은 정렬 성능 면에서 이미 Mythos Preview에 근접했으며, 이는 Anthropic이 더 강력한 모델을 안전하게 공개하기 위한 최종 준비를 진행 중임을 시사합니다.

가격 측면에서 Opus 4.8은 입력 토큰 100만개당 5달러, 출력 토큰 100만개당 25달러의 기존 가격을 유지합니다. API 식별자는 claude-opus-4-8이며, Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 등 전 플랫폼에서 즉시 사용 가능합니다.

OpenAI의 GPT-5.5, Google의 Gemini 3.1 Pro가 계속해서 압박을 가하는 가운데, Anthropic은 독자적인 전략을 택했습니다: 단순한 벤치마크 점수로 타사 모델을 압도하는 방식이 아니라, ‘모델의 성격(personality)’—즉, 성실함, 신뢰성, 그리고 자기 한계를 아는 지혜—를 핵심 차별화 포인트로 삼았습니다.

이 전략이 성공할지는 아직 사용자들의 반응을 지켜봐야 알 수 있습니다. 그러나 지금 이 순간, 제가 Opus 4.8에게 코드 한 조각을 검토해달라고 요청했을 때, 그것은 Opus 4.7이 결코 언급하지 않았던 잠재적 위험을 알려주었습니다.

단지 이 한 가지 이유만으로도, 이번 업데이트를 기다린 시간은 헛되지 않았습니다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

Founder Park