검색
회원가입로그인

Google의 Gemini 2.5 모델이 이제 API 비용 절감을 위한 암묵적 캐싱을 지원합니다.

  • 기사 제목: "Google의 Gemini 2.5 모델, API 비용 절감을 위한 암묵적 캐싱 지원 시작"

  • Google AI 스튜디오와 Gemini API의 수석 제품 매니저인 Logan Kilpatrick가 발표

  • 2024년 5월, 명시적 캐싱을 통해 개발자들이 반복적인 컨텍스트에서 75% 비용 절감 가능

  • 명시적인 캐시 생성이 필요 없는 암묵적 캐싱 기능을 Gemini API에 도입

  • 요청이 이전 요청과 공통 접두사를 공유하면 캐시 타격 가능

  • 캐시 타격의 가능성을 증가시키려면, 요청의 시작 부분을 동일하게 유지하고, 사용자의 질문이나 추가 컨텍스트를 끝 부분에 추가

  • Gemini API 문서의 모범 사례를 참고하여 암묵적 캐싱 사용법을 이해 가능

  • 더 많은 요청이 캐시 타격을 받을 수 있도록 2.5 Flash 모델의 최소 요청 크기를 1024 토큰, 2.5 Pro 모델은 2048 토큰으로 감소

  • Gemini 2.5 모델 사용 시 cached_content_token_count를 통해 요청에서 캐시된 토큰 수를 확인 가능, 낮은 가격으로 청구

  • 명시적 캐싱 API 사용으로 비용 절감을 보장할 수 있으며, Gemini 2.5 및 2.0 모델 지원

  • 비용 효율성을 높이며 계속 발전하고 있으며, 캐싱 업데이트에 대한 피드백 기대


3developers.googleblog.com링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기