목차
모델별 특징 및 활용 사례
GPT-5는 OpenAI의 최신 범용 AI 모델로, 코딩·수학·과학·문서 이해 등 다양한 분야에서 최고 성능을 자랑합니다. OpenAI는 GPT-5를 “코딩과 에이전트적 작업에 최적화된 최고의 모델”이라고 소개하며, 어려운 문제일수록 깊이 사고(GPT-5 thinking)하여 답을 제공합니다. Plus 구독자는 추가 사용량을 얻고, Pro 구독자는 더욱 정교한 GPT-5 프로 모델에 접근할 수 있습니다. 주 용도는 복잡한 문제 해결과 고품질 결과 생성입니다.
GPT-5 미니는 GPT-5의 경량형 버전으로, 처리 속도와 비용 효율성에 중점을 둔 모델입니다. 공식 문서에서는 “잘 정의된 작업에 대해 GPT-5보다 빠르고 저렴한 버전”이라 소개합니다. 즉, 일반적인 챗봇 대화나 간단한 요약·분류 작업 등 정형화된 과제에 적합합니다. GPT-5에 비해 처리량은 높고 지연시간은 상대적으로 짧지만, 복잡한 추론이 많이 필요한 질문에는 품질이 약간 떨어질 수 있습니다.
o3-deep-research는 복잡한 연구 작업을 자동화하기 위해 설계된 에이전트형 모델입니다. API 문서에 따르면 이 모델은 “심층적인 종합을 위해 최적화된 고품질 출력을 제공”하도록 훈련되었습니다. 주어진 높은 수준의 연구 질문을 몇 가지 하위질문으로 분해하고, 웹 검색·코드 실행 등 여러 도구를 활용하여 방대한 자료를 분석한 뒤, 인용과 함께 종합 보고서를 생성합니다. 예를 들어 금융·과학·정책 분야의 시장 조사나 백서 작성에 유리합니다. Azure Foundry 문서에서도 o3-deep-research는 투명한 단계별 근거와 인용을 포함한 “구조화된 리포트”를 생성한다고 설명합니다.
o4-mini-deep-research는 o3-deep-research의 경량·고속 버전으로, 지연시간에 민감한 작업에 적합하도록 설계되었습니다. OpenAI 문서에서는 “더 가볍고 빠른 deep research model”으로 표현하며, o3-deep-research보다 추론 속도가 빠르고 처리량이 높습니다. 간단한 리서치 문의에는 이 모델을, 더 깊은 분석이 필요할 땐 o3-deep-research를 사용하는 전략이 유효합니다.
토큰당 비용 비교
모델 | 입력 토큰당 비용 (USD/1M) | 캐시된 입력 비용 (USD/1M) | 출력 토큰당 비용 (USD/1M) | 참고 |
---|---|---|---|---|
GPT-5 | $1.25 | $0.125 | $10.00 | 입력 1.25, 출력 10 (캐시된 입력 0.125) |
GPT-5 미니 | $0.25 | $0.025 | $2.00 | 입력 0.25, 출력 2 (캐시된 입력 0.025) |
o3-deep-research | $10.00 | $2.50 | $40.00 | Azure Foundry 딥서치 비용 (웹 검색 별도) |
o4-mini-deep-research | $2.00 | $0.50 | $8.00 | 빠른 딥서치 버전 |
캐시된 입력 토큰: 빈번히 재사용되는 프롬프트 콘텐츠에는 할인된 가격이 적용됩니다. 예를 들어 GPT-5의 캐시 입력 비용은 $0.125/M로 보통 입력($1.25/M)의 10%입니다.
추가 기능 비용: 표에는 포함되지 않았지만, o3/o4 딥서치 모델을 사용할 때는 웹 검색 도구(Bing Search) 호출 비용이 별도로 발생합니다. Azure 문서에 따르면, 리서치 과정에서 수행되는 웹 검색은 오픈AI 토큰 요금과 별도로 과금됩니다. 즉, 딥서치 모델로 작업할 경우 토큰 비용과 검색 API 비용을 모두 고려해야 합니다. 일반 GPT-5 모델은 ChatGPT 인터페이스에서 툴(예: 웹 검색, 코드 실행)을 지원하지만, API 호출 시엔 툴 사용분 만큼의 토큰만 과금되고 별도 수수료는 없습니다.
처리 속도 및 지연 시간
GPT-5: 고성능 모델인 만큼 GPT-5(풀 버전)는 신중하게 “생각”하며 응답하므로 GPT-5 미니보다 응답이 느린 편입니다. 다만 엔터프라이즈용 Scale Tier 기준으로는 GPT-5가 99%의 경우 초당 50 토큰 이상을 생성할 수 있어, 수백 토큰 정도의 응답이라면 수초 내에 토큰을 생성합니다. 스트리밍 모드(stream: true)를 사용하면 첫 토큰의 반환 속도를 크게 개선할 수 있습니다. OpenAI의 Scale Tier 문서에 따르면 GPT-5 미니는 99% 요청에 대해 초당 80토큰 이상의 속도를 보장합니다. 이를 환산하면 대략 1,000토큰(장문의 응답) 생성 시 10초 내외 수준입니다.
GPT-5 미니: 경량화 모델인 만큼 일반적으로 GPT-5보다 훨씬 빠릅니다. Scale Tier 기준으로는 GPT-5 미니가 GPT-5보다 높은 토큰 처리량(80 토큰/s 이상)을 갖습니다. 하지만 기본 reasoning 모드(중간 수준 추론 노력)로 호출하면 몇 초 이상의 대기시간이 발생할 수도 있습니다. Microsoft Q&A에서도 유사한 사례가 보고되었는데, 비록 45-120초는 드문 현상으로 분석되었지만, 요청 시 reasoning_effort를 “minimal”로 낮추고 스트리밍을 활성화하면 첫 응답 속도가 크게 개선됩니다. 즉, GPT-5 미니는 설정을 최적화하면 실시간 챗봇 수준의 빠른 응답(보통 1-3초 이내)도 가능합니다.
딥서치 모델 (o3-deep-research, o4-mini-deep-research): 위의 일반 대화형 모델과 달리, 이들 모델은 내부적으로 다단계 조사(workflow)를 수행하므로 응답 생성에 상당한 시간이 소요됩니다. 공식 예시 코드에서도 “딥 리서치 작업은 몇 분이 걸릴 수 있음”을 전제로 비동기 배경 처리를 권장합니다. 실제로 웹 검색, 코드 실행 등의 툴을 호출하며 정보를 종합하기 때문에 사용자 관점에서는 일반적인 챗 응답이 아니라 리포트 작업처럼 수십 초에서 수분의 응답 지연이 발생할 수 있습니다. 이 때문에 API에서 제공하는 백그라운드 모드(비동기 호출)를 이용해 타임아웃을 방지하도록 안내하고 있습니다. 예를 들어, o3-deep-research는 “분 단위로 보고서를 전달(deliver within minutes)”하는 용도로 설계되었으며, 대기 시간이 길 수 있음을 모델 자체가 밝히고 있습니다.
스트리밍 및 지연 최적화: GPT-5 시리즈는 모두 스트리밍 출력이 지원되며, 스트리밍을 사용할 경우 첫 토큰을 빠르게 반환할 수 있어 체감 속도가 빨라집니다. 반면 딥서치 모델은 결과가 구조화된 보고서 형태라 스트리밍과 효과가 제한적입니다. Azure 권장사항에 따르면, 복잡한 추론이 필요하지 않은 일반 요약·대화라면 GPT-4o-mini 같은 더 빠른 모델을 쓰는 것이 지연 시간을 크게 낮출 수 있습니다.
가격·속도 종합 추천 시나리오
실시간 챗봇·높은 처리량: 빠른 응답과 경제성이 우선이라면 GPT-5 미니를 권장합니다. 비용은 GPT-5의 5분의1 수준이며, 토큰 처리 속도도 높아 대규모 서비스에 적합합니다. 단, 깊이 있는 분석이 요구되지 않는 비교적 단순한 질문에 한정하는 것이 좋습니다. (예: 문서 요약, 고객 문의 응답)
복잡한 분석·높은 정확도: 높은 지능과 상세한 답변이 중요하다면 GPT-5(또는 GPT-5 프로) 사용을 고려하세요. 비용은 높지만 오류율이 적고, 멀티스텝 논리구조를 필요로 하는 업무(코딩, 기술 설계, 전문 보고서 작성 등)에 강점을 보입니다. (예: 복잡한 코드 생성, 연구 과제 기획)
인용형 리서치 업무: 웹 검색 기반의 심층 보고서 작성이 필요하면 o3-deep-research가 유리합니다. 최신 웹 데이터를 바탕으로 체계적인 보고서를 생성하므로, 시장조사나 정책 분석 등 여러 정보 출처를 종합하는 과제에 적합합니다. 단, 처리 시간이 길고 비용도 높으므로(입력 1M토큰당 $10, 출력당 $40) 예산과 응답 대기 시간을 충분히 감안해야 합니다.
간단 리서치·속도 중시: 딥서치가 필요하지만 대화형 속도가 중요하면 o4-mini-deep-research를 선택합니다. o3-deep-research보다 추론 속도가 빠르며 비용도 낮습니다(입력 $2/M, 출력 $8/M). (예: 빠른 데이터 수집이 필요한 내부 리포팅)
로드 분산 및 툴 병행 활용: 실시간성과 정확도 모두 필요할 때는 모델을 혼합 사용하세요. 예를 들어, 기본적인 질의응답은 GPT-5 미니로 처리하고, 추가 정보가 필요한 케이스에 한해 백그라운드로 o3-deep-research 요청을 보내는 방식입니다. 또한, 스트리밍과 토큰 제한을 적절히 조절하고(max_tokens, reasoning_effort 등), Azure 환경에서는 혼잡도가 낮은 지역(region)을 선택하면 지연을 줄일 수 있습니다.
참고 자료
- Pricing | OpenAI
- Introduction to deep research in the OpenAI API
- Introducing Deep Research in Azure AI Foundry Agent Service
- o4-mini-deep-research pricing – OpenAI
- Scale Tier for API Customers | OpenAI
- Azure OpenAI (gpt-5-mini) latency 45-120s vs prior OpenAI gpt-4-turbo – Microsoft Q&A
- O3-Deep-Research API – CometAPI