Tag: llm

All the articles with the tag "llm".

RAG 직접 구현 — 임베딩 · 코사인 유사도 · 청크 검색 (한국어 vs 영어 비교까지)

19 Jun, 2026

RAG (Retrieval-Augmented Generation) 의 안쪽을 직접 코드로 깎으면서 임베딩이 무엇인지부터 의심스러운 결과를 디버깅하는 데까지. OpenAI text-embedding-3-small 로 1536차원 벡터를 뽑고, 코사인 유사도로 비교하고, 한국어 vs 영어 성능을 비교하고, 청크 분할까지. 의외로 한국어 임베딩 유사도가 낮은 게 관찰됨.
Claude API 에러 핸들링과 재시도 — 일시적·영구·형식 오류 구분 + Exponential Backoff

19 Jun, 2026

신뢰성 있는 LLM 서비스를 만들려면 어떤 에러를 어떻게 처리해야 하는가. 에러 종류를 일시적 / 영구 / 사용자 입력 / 응답 형식으로 분류하고, 기본 try-except 래퍼 → Exponential backoff → Anthropic SDK 내장 재시도 → JSON 응답 검증까지 4단계로 실습.
Prompt Caching — 같은 입력을 반복할 때 input 비용을 거의 0으로

16 Jun, 2026

긴 시스템 프롬프트나 같은 컨텍스트를 매 호출마다 보내는 챗봇·에이전트·RAG에 필수인 prompt caching. 직접 STM32/임베디드 질문으로 캐싱 유무를 비교 실험했더니 비용은 절반, 시간은 미미하게 줄었다.
Claude Vision — 이미지를 어떻게 넣는가, 그리고 어느 모델로 받는가

15 May, 2026

이미지를 base64로 인코딩해서 보내는 방식과 URL로 보내는 방식 두 가지를 모두 써봤다. 정확하지만 토큰 비용이 더 든다는 점, 작은 텍스트·복잡한 도형의 한계, 그리고 정확도가 필요한 작업에는 더 큰 모델로 옮겨야 한다는 감각까지.