티스토리 뷰

RLE(Run-Length Encoding) 알고리즘 :
데이터를 압축하는 기법 중 하나로, 연속적으로 중복된 데이터를 특정 규칙에 따라 압축하는 방식
문제 1
- 정답률: 25.9%
- 문제1 풀러 가기
데이터 처리 전문가가 되고 싶은 “어피치”는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비손실 압축 방법에 대해 공부를 하고 있는데, 문자열에서 같은 값이 연속해서 나타나는 것을 그 문자의 개수와 반복되는 값으로 표현하여 더 짧은 문자열로 줄여서 표현하는 알고리즘을 공부하고 있습니다. 간단한 예로 “aabbaccc”의 경우 “2a2ba3c”(문자가 반복되지 않아 한번만 나타난 경우 1은 생략함)와 같이 표현할 수 있는데, 이러한 방식은 반복되는 문자가 적은 경우 압축률이 낮다는 단점이 있습니다. 예를 들면, “abcabcdede”와 같은 문자열은 전혀 압축되지 않습니다. “어피치”는 이러한 단점을 해결하기 위해 문자열을 1개 이상의 단위로 잘라서 압축하여 더 짧은 문자열로 표현할 수 있는지 방법을 찾아보려고 합니다.
예를 들어, “ababcdcdababcdcd”의 경우 문자를 1개 단위로 자르면 전혀 압축되지 않지만, 2개 단위로 잘라서 압축한다면 “2ab2cd2ab2cd”로 표현할 수 있습니다. 다른 방법으로 8개 단위로 잘라서 압축한다면 “2ababcdcd”로 표현할 수 있으며, 이때가 가장 짧게 압축하여 표현할 수 있는 방법입니다.
다른 예로, “abcabcdede”와 같은 경우, 문자를 2개 단위로 잘라서 압축하면 “abcabc2de”가 되지만, 3개 단위로 자른다면 “2abcdede”가 되어 3개 단위가 가장 짧은 압축 방법이 됩니다. 이때 3개 단위로 자르고 마지막에 남는 문자열은 그대로 붙여주면 됩니다.
압축할 문자열 s가 매개변수로 주어질 때, 위에 설명한 방법으로 1개 이상 단위로 문자열을 잘라 압축하여 표현한 문자열 중 가장 짧은 것의 길이를 return 하도록 solution 함수를 완성해주세요.
제한사항
- s의 길이는 1 이상 1,000 이하입니다.
- s는 알파벳 소문자로만 이루어져 있습니다.
입출력 예
sresult
"aabbaccc" | 7 |
"ababcdcdababcdcd" | 9 |
"abcabcdede" | 8 |
"abcabcabcabcdededededede" | 14 |
"xababcdcdababcdcd" | 17 |
입출력 예에 대한 설명
- 입출력 예 #1 문자열을 1개 단위로 잘라 압축했을 때 가장 짧습니다.
- 입출력 예 #2 문자열을 8개 단위로 잘라 압축했을 때 가장 짧습니다.
- 입출력 예 #3 문자열을 3개 단위로 잘라 압축했을 때 가장 짧습니다.
- 입출력 예 #4 문자열을 2개 단위로 자르면 “abcabcabcabc6de” 가 됩니다. 문자열을 3개 단위로 자르면 “4abcdededededede” 가 됩니다. 문자열을 4개 단위로 자르면 “abcabcabcabc3dede” 가 됩니다. 문자열을 6개 단위로 자를 경우 “2abcabc2dedede”가 되며, 이때의 길이가 14로 가장 짧습니다.
- 입출력 예 #5 문자열은 제일 앞부터 정해진 길이만큼 잘라야 합니다. 따라서 주어진 문자열을 x / ababcdcd / ababcdcd 로 자르는 것은 불가능 합니다. 이 경우 어떻게 문자열을 잘라도 압축되지 않으므로 가장 짧은 길이는 17이 됩니다.
출제 의도
- 문자열을 다룰 수 있고, 아래 예시와 같이 문자열과 관련된 다양한 작업을 할 수 있는지 파악
- 문자열 자르기
- 부분 문자열 얻기
- 문자열 비교하기
- 문자열 길이 얻기
문제 풀이
첫 번째로 배치된, 가장 쉬운 문제입니다. 문자열 길이가 최대 1,000으로 제한이 크지 않기 때문에, 가능한 모든 방법을 탐색하면 됩니다. 문자열 길이가 N일 때, 길이가 N/2 보다 크게 잘랐을 때는 길이가 줄지 않습니다. 따라서 1 ~ N/2 길이로 자르는 방법을 모두 탐색한 후 그중 가장 짧은 방법을 선택하면 됩니다.

주어진 문자열 s를 i개씩 나누어 연속된 문자열을 찾아 압축하는 방식으로 구현되어 있습니다. 이때, i는 문자열을 나누는 크기로, 문자열을 나누는 크기가 작을수록 압축률이 높아집니다.
compress 함수에서는 연속된 문자열을 압축하기 위해 현재 문자열과 이전 문자열을 비교하고, 같은 문자열의 수를 count-로 카운트해 압축합니다. 이때, 연속된 문자열이 끝날 때마다 현재까지 카운트된 문자열의 개수와 이전 문자열을 조합하여 압축된 문자열을 생성합니다.
solution 함수에서는 주어진 문자열 s를 i개씩 나누어 연속된 문자열을 찾아 compress 함수를 호출하여 압축된 문자열을 구하고, 구한 문자열의 길이 중 최소값을 찾아 반환합니다.
이 알고리즘의 시간 복잡도는 문자열의 길이를 n이라고 할 때, 문자열을 나누는 크기 i를 기준으로 O(n/i)번의 문자열 압축 연산이 수행됩니다. 따라서 최악의 경우 O(n^2)의 시간 복잡도를 가지지만, 문자열을 나누는 크기 i를 적절히 선택하면 O(n) 이하의 시간 복잡도를 가질 수 있습니다.
'개발' 카테고리의 다른 글
[자료구조] 누구나 자료구조와 알고리즘 (0) | 2023.06.02 |
---|---|
[알고리즘공부] 회전배열문제 & 2020 신입개발자 블라인드채용 3번문제 (0) | 2023.05.09 |
[Next.JS] ( SSR, SSG, CSR, ISR ) 관해서 (0) | 2023.03.21 |
[JS] 코드 리팩토링: Set 객체를 이용해서 배열 중복 제거하기 (0) | 2023.03.17 |
[PlanetScale/scoop/windows]윈도우에서 PlanetScale cli 설치(scoop) (0) | 2023.03.16 |