Google의 Gemini 2.5 모델이 이제 API 비용 절감을 위한 암묵적 캐싱을 지원합니다.
-
기사 제목: "Google의 Gemini 2.5 모델, API 비용 절감을 위한 암묵적 캐싱 지원 시작"
-
Google AI 스튜디오와 Gemini API의 수석 제품 매니저인 Logan Kilpatrick가 발표
-
2024년 5월, 명시적 캐싱을 통해 개발자들이 반복적인 컨텍스트에서 75% 비용 절감 가능
-
명시적인 캐시 생성이 필요 없는 암묵적 캐싱 기능을 Gemini API에 도입
-
요청이 이전 요청과 공통 접두사를 공유하면 캐시 타격 가능
-
캐시 타격의 가능성을 증가시키려면, 요청의 시작 부분을 동일하게 유지하고, 사용자의 질문이나 추가 컨텍스트를 끝 부분에 추가
-
Gemini API 문서의 모범 사례를 참고하여 암묵적 캐싱 사용법을 이해 가능
-
더 많은 요청이 캐시 타격을 받을 수 있도록 2.5 Flash 모델의 최소 요청 크기를 1024 토큰, 2.5 Pro 모델은 2048 토큰으로 감소
-
Gemini 2.5 모델 사용 시 cached_content_token_count를 통해 요청에서 캐시된 토큰 수를 확인 가능, 낮은 가격으로 청구
-
명시적 캐싱 API 사용으로 비용 절감을 보장할 수 있으며, Gemini 2.5 및 2.0 모델 지원
-
비용 효율성을 높이며 계속 발전하고 있으며, 캐싱 업데이트에 대한 피드백 기대
3developers.googleblog.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.