Google의 Gemini 2.5 모델이 이제 API 비용 절감을 위한 암묵적 캐싱을 지원합니다.

2025-05-08

기사 제목: "Google의 Gemini 2.5 모델, API 비용 절감을 위한 암묵적 캐싱 지원 시작"
Google AI 스튜디오와 Gemini API의 수석 제품 매니저인 Logan Kilpatrick가 발표
2024년 5월, 명시적 캐싱을 통해 개발자들이 반복적인 컨텍스트에서 75% 비용 절감 가능
명시적인 캐시 생성이 필요 없는 암묵적 캐싱 기능을 Gemini API에 도입
요청이 이전 요청과 공통 접두사를 공유하면 캐시 타격 가능
캐시 타격의 가능성을 증가시키려면, 요청의 시작 부분을 동일하게 유지하고, 사용자의 질문이나 추가 컨텍스트를 끝 부분에 추가
Gemini API 문서의 모범 사례를 참고하여 암묵적 캐싱 사용법을 이해 가능
더 많은 요청이 캐시 타격을 받을 수 있도록 2.5 Flash 모델의 최소 요청 크기를 1024 토큰, 2.5 Pro 모델은 2048 토큰으로 감소
Gemini 2.5 모델 사용 시 cached_content_token_count를 통해 요청에서 캐시된 토큰 수를 확인 가능, 낮은 가격으로 청구
명시적 캐싱 API 사용으로 비용 절감을 보장할 수 있으며, Gemini 2.5 및 2.0 모델 지원
비용 효율성을 높이며 계속 발전하고 있으며, 캐싱 업데이트에 대한 피드백 기대

3developers.googleblog.com링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.