'2025/05 글 목록

Spark의 핵심 데이터 모델 정리 (RDD, Dataframe, Dataet)

Spark의 핵심 데이터 모델 정리 1. RDD (Resilient Distributed Dataset)RDD는 Spark의 가장 기본적인 분산 데이터 모델로, MapReduce보다 더 유연하고 빠르게 데이터를 처리할 수 있게 해준다. 핵심 특징Resilient (탄력성): 오류가 발생해도 데이터를 복구할 수 있는 fault-tolerant 구조Distributed (분산): 여러 노드에 데이터를 나눠 저장하고 처리함Dataset (불변성): 한 번 생성되면 변경되지 않으며, 항상 새로운 RDD를 반환 (함수형 방식)MapReduce와 비교유사한 분산 처리 모델이지만, 메모리 중심의 연산으로 훨씬 빠름MapReduce가 디스크 기반이라면, RDD는 메모리를 적극 활용MapReduce는 "무엇을 할지" ..

카테고리 없음 2025. 5. 25. 03:17

AWS Redshift DBeaver 접속

잘나오는 redshfit DBeaver 연결하려면? 엔드포인트, 생성시 db 비밀번호 저장한뒤, DBeaver 커넥팅하면, 이슈발생 1.해결방법속성 > vpc보안그룹 > 해당 보안그룹ID클릭 > 인바운드 규칙편집 2. 한가지더 추가설정탭 > 네트워크 및 보안 설정 > 액세스 체크> 저장 연동완료 , 개발시작!

카테고리 없음 2025. 5. 15. 11:07

AWS Redshift 성능 최적화 전략 정리 (DISTKEY, SORTKEY, VACUUM, ANALYZE, WLM)

Redshift는 대용량 데이터 분석에 특화된 MPP(Massively Parallel Processing) 아키텍처를 기반으로 설계된 AWS의 데이터 웨어하우스이다. 대용량 데이터에서 쿼리 성능을 최적화하기 위해 DISTKEY, SORTKEY, VACUUM, ANALYZE, WLM 설정을 이해하고 활용하는 것이 매우 중요함. 1. DISTKEY – 데이터를 어떻게 "분산" 할 건지? Redshift는 MPP 구조이기 때문에 데이터를 여러 노드에 어떻게 나누느냐가 쿼리 성능에 직결됨이를 제어하는 것이 DISTKEY이다. 💡 DISTSTYLE 옵션유형설명AUTORedshift가 자동으로 선택 (권장, 최근 기본값)EVEN데이터를 모든 슬라이스에 균등 분산 (JOIN 성능 최적화에는 불리)KEY특정 컬..

카테고리 없음 2025. 5. 12. 19:01

[LeetCode/Python] 412. Fizz Buzz

3의 배수, 5의 배수 , 15의 배수일때에 따른 배열 출력class Solution: def fizzBuzz(self, n: int) -> List[str]: return [ "Fizz"*(i%3==0) + "Buzz"*(i%5==0) or str(i) for i in range(1,n+1)] 배열안에서 바로 작업

LeetCode 2025. 5. 12. 16:55

[kubectl] Airflow Pod가 재시작되며 db없어지는 이슈 해결기

Helm + Kubernetes 환경에서 발생한 PostgreSQL emptyDir 문제 및 해결 과정 기록 ❗ 문제 개요Kubernetes 환경에서 Airflow를 Helm으로 배포하는 과정에서 발생한 Pod 무한 재시작(CrashLoopBackOff) 이슈Web, Scheduler Pod가 계속해서 CreateContainerConfigError, Database does not exist 오류 발생원인은 PostgreSQL StatefulSet이 emptyDir로 구성되어 Pod 재시작 시 DB 초기화가 발생한 것=> 즉 팟이 쿠버네티스위에서 재시작되는경우, emptyDir 상태로 DB명이 없어짐 💻 증상 요약kubectl get podsairflow-0hyeon-web-0 0/1 ..

카테고리 없음 2025. 5. 12. 16:26

[LeetCode/Python] 1672. Richest Customer Wealth

나의코드class Solution: def maximumWealth(self, accounts: List[List[int]]) -> int: array=[] for i in range(0,len(accounts)): result = 0 for l in range(0, len(accounts[i]) ): result += accounts[i][l] array.append(result) return max(array) 더 간결한 코드class Solution: def maximumWealth(self, accounts: List[List[int]]) -> int: ..

LeetCode 2025. 5. 10. 18:22

[LeetCode/Python] 1480. Running Sum of 1d Array

어려운문제 1개를 고생끝에 풀기보다,얼마나 꾸준하게 지속하였는지가 더 어렵다. class Solution: def runningSum(self, nums: List[int]) -> List[int]: for i in range(1,len(nums)): nums[i] += nums[i-1] return nums 1일 1코테시작누적합 배열 리턴 문제 for i range(범위) 알고있고,현재값과 이전 값을 현재인덱스에 덮어쓰면쉽게 풀릴 예정

LeetCode 2025. 5. 10. 17:15

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

티스토리툴바