본문 바로가기

알고리즘

[프로그래머스] [1차] 캐시 (python, LRU 알고리즘)

📌 문제

https://school.programmers.co.kr/learn/courses/30/lessons/17680

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

지도개발팀에서 근무하는 제이지는 지도에서 도시 이름을 검색하면 해당 도시와 관련된 맛집 게시물들을 데이터베이스에서 읽어 보여주는 서비스를 개발하고 있다.
이 프로그램의 테스팅 업무를 담당하고 있는 어피치는 서비스를 오픈하기 전 각 로직에 대한 성능 측정을 수행하였는데, 제이지가 작성한 부분 중 데이터베이스에서 게시물을 가져오는 부분의 실행시간이 너무 오래 걸린다는 것을 알게 되었다.
어피치는 제이지에게 해당 로직을 개선하라고 닦달하기 시작하였고, 제이지는 DB 캐시를 적용하여 성능 개선을 시도하고 있지만 캐시 크기를 얼마로 해야 효율적인지 몰라 난감한 상황이다.

어피치에게 시달리는 제이지를 도와, DB 캐시를 적용할 때 캐시 크기에 따른 실행시간 측정 프로그램을 작성하시오.

입력 형식

  • 캐시 크기(cacheSize)와 도시이름 배열(cities)을 입력받는다.
  • cacheSize는 정수이며, 범위는 0 ≦ cacheSize ≦ 30 이다.
  • cities는 도시 이름으로 이뤄진 문자열 배열로, 최대 도시 수는 100,000개이다.
  • 각 도시 이름은 공백, 숫자, 특수문자 등이 없는 영문자로 구성되며, 대소문자 구분을 하지 않는다. 도시 이름은 최대 20자로 이루어져 있다.

출력 형식

  • 입력된 도시이름 배열을 순서대로 처리할 때, "총 실행시간"을 출력한다.

조건

  • 캐시 교체 알고리즘은 LRU(Least Recently Used)를 사용한다.
  • cache hit일 경우 실행시간은 1이다.
  • cache miss일 경우 실행시간은 5이다.

✔️ 입출력 예제

캐시 크기
(cacheSize)
도시 이름(cities) 실행 시간
3 ["Jeju", "Pangyo", "Seoul", "NewYork", "LA", "Jeju", "Pangyo", "Seoul", "NewYork", "LA"] 50
3 ["Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul"] 21
2 ["Jeju", "Pangyo", "Seoul", "NewYork", "LA", "SanFrancisco", "Seoul", "Rome", "Paris", "Jeju", "NewYork", "Rome"] 60
5 ["Jeju", "Pangyo", "Seoul", "NewYork", "LA", "SanFrancisco", "Seoul", "Rome", "Paris", "Jeju", "NewYork", "Rome"] 52
2 ["Jeju", "Pangyo", "NewYork", "newyork"] 16
0 ["Jeju", "Pangyo", "Seoul", "NewYork", "LA"] 25

🗒 풀이

문제에서 주어졌듯이 LRU 알고리즘을 알면 좋다. 

LRU 알고리즘은 Least-Recently-Used의 약자로, 페이지 교체 알고리즘 중 하나로 페이지 교체가 발생했을 경우 가장 오랫동안 사용되지 않은 페이지를 제거하는 알고리즘이다. 쉽게 말하면 가장 오래된 값을 제거하고 새로운 값을 넣는 것이다.

 

입출력 예제 중 하나로 설명해보겠다. 첫번째 예는 다 캐시 미스가 나므로 두번째 예로 설명하겠다.

여기서 캐시(Cache)란 자주 사용하는 데이터나 값을 미리 복사해 놓는 임시 장소를 가리킨다. 또 캐시 미스(Cache Miss)는 CPU가 참조하고자 하는 메모리가 캐시에 존재하지 않는 경우를 말하고, 캐시 히트(Cache Hit)란 CPU가 참조하고자 하는 메모리가 캐시에 존재하고 있는 경우를 말한다. 

 

다시 본론으로 돌아와서 캐시 크기가 3이고, 도시 이름이 ["Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul"]라고 가정한다.

캐시 과정은 다음과 같이 설명할 수 있다. 

 

1. Jeju / 캐시 미스

2. Jeju, Pangyo / 캐시 미스

3. Jeju, Pangyo, Seoul / 캐시 미스

4. Pangyo, Seoul, Jeju  / 캐시 히트

5. Seoul, Jeju, Pangyo / 캐시 히트

6. Jeju, Pangyo, Seoul / 캐시 히트

7. Pangyo, Seoul, Jeju / 캐시 히트

8. Seoul, Jeju, Pangyo / 캐시 히트

9. Jeju, Pangyo, Seoul / 캐시 히트

 

따라서 캐시 미스(5) * 3 + 캐시 히트(1) * 6 = 15 + 6 = 21 로 두번째 예시의 정답이 21임을 알 수 있다.

 

LRU 알고리즘은 python으로 다음과 같이 작성할 수 있다.

cache_size = 3
cities = ["Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul", "Jeju", "Pangyo", "Seoul"]
cache = []

for city in cities:
    if city in cache:
    	cache.remove(city)
        cache.insert(len(cities) - 1, city)
    else:
    	if len(cache) >= cache_size:
            cache.pop(0)
        cache.append(city)

위를 이용해서 문제 풀이 코드를 짜봤다.

 

def solution(cacheSize, cities):
    answer = 0
    cache = []
    if cacheSize == 0:
        return len(cities) * 5
    for city in cities:
        city = city.lower()
        if city in cache:
            cache.remove(city)
            cache.insert(cacheSize - 1, city)
            answer += 1
        else:
            if len(cache) >= cacheSize:
                cache.pop(0)
            cache.append(city)
            answer += 5
    return answer

문제에서 대소문자 구분을 하지 않는다는 조건이 있어, lower() 처리를 해줬다.

이때 나같은 경우엔 if len(cache) >= cacheSize로 캐시 크기를 체크하며 데이터를 추가해줬지만, 다른 답안을 보니 deque의 maxlen을 이용하면 불필요한 과정을 줄일 수 있다.

def solution(cacheSize, cities):
    import collections
    cache = collections.deque(maxlen=cacheSize)
    time = 0
    for i in cities:
        s = i.lower()
        if s in cache:
            cache.remove(s)
            cache.append(s)
            time += 1
        else:
            cache.append(s)
            time += 5
    return time

같은 로직임에도 훨씬 깔끔함을 알 수 있다.