Question 1

어떤 LLM 모델들이 포함되어 있나요?

Accepted Answer

GPT-4o, GPT-4o mini, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 2.0 Flash, Gemini 1.5 Pro, Llama 3.1 405B, Mistral Large, Command R+, DeepSeek V3, Qwen 2.5 72B — 8개 주요 AI 제공사의 11개 모델이 포함되어 있습니다.

Question 2

"컨텍스트 창"이란 무엇이며 왜 중요한가요?

Accepted Answer

컨텍스트 창은 모델이 단일 요청에서 처리할 수 있는 최대 토큰 수(입력 프롬프트와 생성된 응답 포함)입니다. 컨텍스트 창이 클수록 더 긴 문서, 긴 대화 기록, 더 큰 코드베이스를 한 번에 처리할 수 있습니다. Gemini 1.5 Pro는 최대 200만 토큰을 지원해 책 전체나 대규모 저장소도 처리 가능합니다.

Question 3

토큰 가격은 어떻게 계산되나요?

Accepted Answer

가격은 토큰 백만 개당 비용으로 표시됩니다. 입력 토큰은 모델에 보내는 텍스트(프롬프트, 문서, 컨텍스트)이고, 출력 토큰은 모델이 생성하는 텍스트입니다. 출력 토큰은 일반적으로 입력 토큰보다 3~6배 비쌉니다. 예를 들어 GPT-4o는 입력 백만 토큰당 $2.50, 출력 백만 토큰당 $10.00입니다.

Question 4

코딩 작업에 가장 적합한 모델은 무엇인가요?

Accepted Answer

Claude 3.5 Sonnet, GPT-4o, DeepSeek V3가 코딩에 뛰어난 성능을 보이는 것으로 알려져 있습니다. Claude 3.5 Sonnet은 200K 컨텍스트 창으로 코드 생성, 디버깅, 코드 리뷰에 탁월합니다. DeepSeek V3는 Mixture-of-Experts 아키텍처를 사용해 훨씬 낮은 비용으로 높은 성능을 발휘합니다.

Question 5

오픈소스 모델이란 무엇이며 어떻게 사용하나요?

Accepted Answer

"Open" 가격으로 표시된 Llama 3.1 405B와 Qwen 2.5 72B는 모델 가중치를 무료로 다운로드할 수 있는 오픈 웨이트 모델입니다. 자체 하드웨어나 클라우드 인프라에서 실행할 수 있으며, 토큰당 API 비용 대신 컴퓨팅 비용만 지불하면 됩니다. 데이터 프라이버시나 대용량 추론이 필요한 경우에 적합하며, vLLM, Ollama, Hugging Face TGI 등의 프레임워크로 배포할 수 있습니다.

Question 6

Mixture-of-Experts(MoE) 아키텍처란 무엇인가요?

Accepted Answer

DeepSeek V3(671B MoE)와 같은 MoE 모델은 각 토큰을 추론할 때 전체 파라미터 중 일부만 활성화합니다. 이를 통해 훨씬 적은 활성 파라미터로도 대형 밀집 모델에 필적하는 성능을 달성하면서 추론 비용과 지연 시간을 크게 줄입니다. "671B"는 전체 파라미터 수이며, 토큰당 활성화되는 파라미터는 그보다 훨씬 적습니다.

Question 7

매우 긴 문서 처리에 가장 적합한 모델은 무엇인가요?

Accepted Answer

극도로 긴 문서에는 200만 토큰 컨텍스트 창을 가진 Gemini 1.5 Pro가 가장 적합합니다. Gemini 2.0 Flash는 100만 토큰을 매우 저렴한 가격에 제공합니다. Claude 3.5 Sonnet과 Haiku는 모두 200K 토큰을 지원해 대부분의 장문 처리에 충분합니다. GPT-4 시리즈 모델은 모두 128K 토큰을 지원합니다.

Question 8

이 도구의 가격 데이터는 최신 정보인가요?

Accepted Answer

도구 제작 시점의 API 가격을 반영합니다. LLM 가격은 제공사들의 경쟁과 인프라 최적화에 따라 자주 변경됩니다. 프로덕션 예산 결정 전에는 항상 공식 제공사 대시보드에서 최신 가격을 확인하세요. 이 표는 대략적인 비용 추정과 제공사 비교를 위한 빠른 참고용으로 활용하시기 바랍니다.

모델	제공사	파라미터	컨텍스트	Input/1M	Output/1M	MMLU	강점
GPT-4.1	OpenAI	~1.8T	1M	$2.00	$8.00	90.2	멀티모달, 코딩, 지시 따르기
GPT-4o	OpenAI	~1.8T	128K	$2.50	$10.00	88.7	멀티모달, 코딩, 추론
GPT-4o mini	OpenAI	-	128K	$0.15	$0.60	82	비용 효율, 빠른 속도
Claude Opus 4	Anthropic	-	200K	$15.00	$75.00	91.3	최고 추론, 코딩, 분석
Claude Sonnet 4.5	Anthropic	-	200K	$3.00	$15.00	90	코딩, 분석, 균형잡힌 성능
Claude 3.5 Haiku	Anthropic	-	200K	$0.80	$4.00	84	빠른 응답, 비용 효율
Gemini 2.5 Pro	Google	-	1M	$1.25	$10.00	90.8	추론, 코딩, 대형 컨텍스트
Gemini 2.0 Flash	Google	-	1M	$0.10	$0.40	85.2	초대형 컨텍스트, 빠른 속도
Llama 4	Meta	405B MoE	256K	Open	Open	89	오픈소스, 멀티모달, MoE
Llama 3.1 405B	Meta	405B	128K	Open	Open	87.3	오픈소스, 자체 호스팅
DeepSeek V3	DeepSeek	671B MoE	128K	$0.27	$1.10	88.5	MoE, 코딩, 가성비
Mistral Large	Mistral	123B	128K	$2.00	$6.00	86	다국어, 코딩
Command R+	Cohere	104B	128K	$2.50	$10.00	83	RAG, 검색 증강
Qwen 2.5 72B	Alibaba	72B	128K	Open	Open	85.8	오픈소스, 다국어

LLM Model Comparison

비용 계산기

관련 도구

LLM Model Comparison 소개

주요 기능

자주 묻는 질문