LLM Model Comparison
LLM 모델 비교표 - GPT, Claude, Gemini, Llama 파라미터/가격/벤치마크
| 모델 | 제공사 | 파라미터 | 컨텍스트 | Input/1M | Output/1M | MMLU | 강점 |
|---|---|---|---|---|---|---|---|
| GPT-4.1 | OpenAI | ~1.8T | 1M | $2.00 | $8.00 | 90.2 | 멀티모달, 코딩, 지시 따르기 |
| GPT-4o | OpenAI | ~1.8T | 128K | $2.50 | $10.00 | 88.7 | 멀티모달, 코딩, 추론 |
| GPT-4o mini | OpenAI | - | 128K | $0.15 | $0.60 | 82 | 비용 효율, 빠른 속도 |
| Claude Opus 4 | Anthropic | - | 200K | $15.00 | $75.00 | 91.3 | 최고 추론, 코딩, 분석 |
| Claude Sonnet 4.5 | Anthropic | - | 200K | $3.00 | $15.00 | 90 | 코딩, 분석, 균형잡힌 성능 |
| Claude 3.5 Haiku | Anthropic | - | 200K | $0.80 | $4.00 | 84 | 빠른 응답, 비용 효율 |
| Gemini 2.5 Pro | - | 1M | $1.25 | $10.00 | 90.8 | 추론, 코딩, 대형 컨텍스트 | |
| Gemini 2.0 Flash | - | 1M | $0.10 | $0.40 | 85.2 | 초대형 컨텍스트, 빠른 속도 | |
| Llama 4 | Meta | 405B MoE | 256K | Open | Open | 89 | 오픈소스, 멀티모달, MoE |
| Llama 3.1 405B | Meta | 405B | 128K | Open | Open | 87.3 | 오픈소스, 자체 호스팅 |
| DeepSeek V3 | DeepSeek | 671B MoE | 128K | $0.27 | $1.10 | 88.5 | MoE, 코딩, 가성비 |
| Mistral Large | Mistral | 123B | 128K | $2.00 | $6.00 | 86 | 다국어, 코딩 |
| Command R+ | Cohere | 104B | 128K | $2.50 | $10.00 | 83 | RAG, 검색 증강 |
| Qwen 2.5 72B | Alibaba | 72B | 128K | Open | Open | 85.8 | 오픈소스, 다국어 |
비용 계산기
LLM Model Comparison 소개
LLM 모델 비교 도구는 가장 널리 사용되는 11개의 대형 언어 모델을 하나의 표에서 즉시 비교할 수 있게 해줍니다. 비교 대상 모델은 OpenAI의 GPT-4o와 GPT-4o mini, Anthropic의 Claude 3.5 Sonnet과 Claude 3.5 Haiku, Google의 Gemini 2.0 Flash와 Gemini 1.5 Pro, Meta의 Llama 3.1 405B, Mistral Large, Cohere의 Command R+, DeepSeek V3, Alibaba의 Qwen 2.5 72B입니다. 각 모델별로 제공사, 파라미터 수, 컨텍스트 창 크기, 입력/출력 토큰 백만 개당 가격, 강점 요약을 확인할 수 있습니다.
AI 엔지니어, 제품 매니저, 스타트업 창업자, 연구자 등 어떤 모델이 자신의 사용 사례와 예산에 맞는지 빠르게 평가해야 하는 사람들을 위해 만들어진 도구입니다. LLM 선택은 비용, 속도, 컨텍스트 길이, 특정 작업 성능의 균형을 잡는 과정입니다. Gemini 1.5 Pro는 200만 토큰 컨텍스트 창으로 긴 문서 분석에 최적이며, GPT-4o mini와 Gemini 2.0 Flash는 대용량 워크로드에 비용 효율적입니다. Llama 3.1 405B나 Qwen 2.5 72B 같은 오픈소스 모델은 API 비용 없이 자체 호스팅이 가능해 데이터 프라이버시가 중요한 경우에 적합합니다.
비교 데이터는 컴포넌트에 정적 데이터셋으로 내장되어 있으며, 자바스크립트를 통해 전적으로 브라우저에서 필터링됩니다. 모델명이나 강점 키워드로 검색하거나, 토글 버튼을 사용해 제공사(OpenAI, Anthropic, Google, Meta, Mistral, Cohere, DeepSeek, Alibaba)별로 필터링할 수 있습니다. 결과 수는 입력하는 즉시 실시간으로 업데이트됩니다. 네트워크 요청이 전혀 없어 연결 속도와 무관하게 즉시 렌더링됩니다.
주요 기능
- OpenAI, Anthropic, Google, Meta, Mistral, Cohere, DeepSeek, Alibaba 8개 제공사의 11개 주요 LLM 모델 포함
- 각 모델의 128K~200만 토큰에 이르는 컨텍스트 창 크기 표시
- 직접적인 비용 비교를 위한 백만 토큰당 입력/출력 가격 표시
- "coding", "RAG", "multilingual" 등 모델명 또는 기능 키워드로 실시간 검색
- 벤더별로 빠르게 좁힐 수 있는 원클릭 제공사 필터 버튼
- 자체 호스팅 시나리오를 위해 오픈소스 모델의 "Open" 가격 명시
- 소형 화면에서도 편안하게 사용할 수 있는 가로 스크롤 컴팩트 표 레이아웃
- 로케일 설정에 따라 한국어와 영어로 전환되는 강점 설명
자주 묻는 질문
어떤 LLM 모델들이 포함되어 있나요?
GPT-4o, GPT-4o mini, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 2.0 Flash, Gemini 1.5 Pro, Llama 3.1 405B, Mistral Large, Command R+, DeepSeek V3, Qwen 2.5 72B — 8개 주요 AI 제공사의 11개 모델이 포함되어 있습니다.
"컨텍스트 창"이란 무엇이며 왜 중요한가요?
컨텍스트 창은 모델이 단일 요청에서 처리할 수 있는 최대 토큰 수(입력 프롬프트와 생성된 응답 포함)입니다. 컨텍스트 창이 클수록 더 긴 문서, 긴 대화 기록, 더 큰 코드베이스를 한 번에 처리할 수 있습니다. Gemini 1.5 Pro는 최대 200만 토큰을 지원해 책 전체나 대규모 저장소도 처리 가능합니다.
토큰 가격은 어떻게 계산되나요?
가격은 토큰 백만 개당 비용으로 표시됩니다. 입력 토큰은 모델에 보내는 텍스트(프롬프트, 문서, 컨텍스트)이고, 출력 토큰은 모델이 생성하는 텍스트입니다. 출력 토큰은 일반적으로 입력 토큰보다 3~6배 비쌉니다. 예를 들어 GPT-4o는 입력 백만 토큰당 $2.50, 출력 백만 토큰당 $10.00입니다.
코딩 작업에 가장 적합한 모델은 무엇인가요?
Claude 3.5 Sonnet, GPT-4o, DeepSeek V3가 코딩에 뛰어난 성능을 보이는 것으로 알려져 있습니다. Claude 3.5 Sonnet은 200K 컨텍스트 창으로 코드 생성, 디버깅, 코드 리뷰에 탁월합니다. DeepSeek V3는 Mixture-of-Experts 아키텍처를 사용해 훨씬 낮은 비용으로 높은 성능을 발휘합니다.
오픈소스 모델이란 무엇이며 어떻게 사용하나요?
"Open" 가격으로 표시된 Llama 3.1 405B와 Qwen 2.5 72B는 모델 가중치를 무료로 다운로드할 수 있는 오픈 웨이트 모델입니다. 자체 하드웨어나 클라우드 인프라에서 실행할 수 있으며, 토큰당 API 비용 대신 컴퓨팅 비용만 지불하면 됩니다. 데이터 프라이버시나 대용량 추론이 필요한 경우에 적합하며, vLLM, Ollama, Hugging Face TGI 등의 프레임워크로 배포할 수 있습니다.
Mixture-of-Experts(MoE) 아키텍처란 무엇인가요?
DeepSeek V3(671B MoE)와 같은 MoE 모델은 각 토큰을 추론할 때 전체 파라미터 중 일부만 활성화합니다. 이를 통해 훨씬 적은 활성 파라미터로도 대형 밀집 모델에 필적하는 성능을 달성하면서 추론 비용과 지연 시간을 크게 줄입니다. "671B"는 전체 파라미터 수이며, 토큰당 활성화되는 파라미터는 그보다 훨씬 적습니다.
매우 긴 문서 처리에 가장 적합한 모델은 무엇인가요?
극도로 긴 문서에는 200만 토큰 컨텍스트 창을 가진 Gemini 1.5 Pro가 가장 적합합니다. Gemini 2.0 Flash는 100만 토큰을 매우 저렴한 가격에 제공합니다. Claude 3.5 Sonnet과 Haiku는 모두 200K 토큰을 지원해 대부분의 장문 처리에 충분합니다. GPT-4 시리즈 모델은 모두 128K 토큰을 지원합니다.
이 도구의 가격 데이터는 최신 정보인가요?
도구 제작 시점의 API 가격을 반영합니다. LLM 가격은 제공사들의 경쟁과 인프라 최적화에 따라 자주 변경됩니다. 프로덕션 예산 결정 전에는 항상 공식 제공사 대시보드에서 최신 가격을 확인하세요. 이 표는 대략적인 비용 추정과 제공사 비교를 위한 빠른 참고용으로 활용하시기 바랍니다.