공부/AI

GPT-5.4 공개 총정리 — 업무용 AI 최강, 하지만 범용 지능은 아직

우주관리자 2026. 3. 7.

오픈AI가 최신 프런티어 모델 GPT-5.4를 공개했습니다. 추론, 코딩, 에이전트 기능을 하나로 통합한 이 모델은 실제 업무 환경에서 어떤 변화를 가져올까요?

GPT-5.4, 뭐가 달라졌나?

GPT-5.4의 가장 큰 특징은 기존에 따로 나뉘어 있던 모델들을 하나로 합쳤다는 점입니다. GPT-5.2의 추론 능력과 GPT-5.3 코덱스의 코딩 성능을 흡수해, 스프레드시트·프레젠테이션·문서 작업까지 하나의 모델로 처리할 수 있게 됐습니다.

🔑 핵심 변화 요약

  • 통합 모델 — 추론 + 코딩 + 에이전트 워크플로를 하나로
  • 컴퓨터 사용 능력 탑재 — 범용 모델 최초로 AI가 직접 브라우저를 조작
  • 100만 토큰 컨텍스트 — 장시간 작업의 계획·실행·검증까지 가능
  • 도구 검색 기능 — 대규모 도구 환경에서 필요한 도구를 자동으로 찾아 사용
  • 씽킹(Thinking) 기능 — 답변 전 작업 계획을 먼저 제시, 사용자가 중간에 방향 조정 가능

📊 벤치마크 성적표

숫자로 보면 GPT-5.4의 발전이 더 선명하게 드러납니다.

GDPval (실제 업무 수행 능력)

44개 직군의 실제 업무를 기반으로 AI의 업무 수행력을 측정하는 테스트입니다.

  • GPT-5.4: 83% (전문가와 동등 이상)
  • GPT-5.2: 71%
  • 12%p 향상, 업무 현장에서 실질적으로 쓸 수 있는 수준에 도달

스프레드시트 모델링

투자은행 주니어 애널리스트 수준의 엑셀 작업을 평가한 결과:

  • GPT-5.4: 87.5%
  • GPT-5.2: 68.4%
  • → 약 20%p 점프, 금융업 실무 투입 가능 수준

경쟁사 비교

  • 브라우즈컴프(정보 검색): GPT-5.4 89.3% > 제미나이 3.1프로 85.9% > 클로드 오퍼스 4.6 84%
  • SWE-벤치(코딩): GPT-5.4 57.7% > 제미나이 3.1프로 54.2%
  • 오류율: GPT-5.2 대비 개별 주장 오류 33%↓, 전체 응답 오류 18%↓

⚠️ 하지만 넘지 못한 벽도 있다

모든 게 장밋빛은 아닙니다. 범용 지능을 측정하는 '인류 마지막 시험(HLE)'에서는 GPT-5.4가 39.8%, GPT-5.4프로가 42.7%를 기록하며 구글 제미나이 3.1프로(45.9%)에 미치지 못했습니다.

실무 도구로서는 최강이지만, "범용 지능"이라는 AI의 궁극적 목표에는 아직 갈 길이 남아있는 셈입니다.

💡 실생활에서 뭐가 달라질까?

GPT-5.4가 실제로 영향을 미칠 영역은 명확합니다:

  • 사무직 생산성 — 엑셀 모델링, PPT 제작, 보고서 작성을 AI가 직접 수행
  • 개발자 워크플로 — 코딩과 디버깅을 하나의 모델로 처리, 코덱스와의 전환 불필요
  • AI 에이전트 — 브라우저를 직접 조작하는 "컴퓨터 사용" 능력으로 자동화 범위 확대
  • 비용 효율 — 같은 작업에 필요한 토큰 수 대폭 감소

🔮 AI 시장은 어디로?

GPT-5.4의 출시는 AI 산업의 방향을 잘 보여줍니다. "더 똑똑한 AI"에서 "더 유용한 AI"로의 전환입니다.

벤치마크 점수를 높이는 것보다 실제 업무 환경에서 얼마나 잘 작동하는지가 경쟁의 핵심이 되고 있습니다. 구글 제미나이, 앤트로픽 클로드와의 3파전은 더욱 치열해질 전망이며, 이 경쟁의 최대 수혜자는 결국 사용자입니다.

챗GPT 유료 가입자라면 지금 바로 GPT-5.4를 사용해볼 수 있습니다. 기존 GPT-5.2 사고 모델은 6월 5일 서비스를 종료할 예정이니, 미리 전환을 준비해두시는 것도 좋겠습니다.