
Spark의 핵심 데이터 모델 정리 1. RDD (Resilient Distributed Dataset)RDD는 Spark의 가장 기본적인 분산 데이터 모델로, MapReduce보다 더 유연하고 빠르게 데이터를 처리할 수 있게 해준다. 핵심 특징Resilient (탄력성): 오류가 발생해도 데이터를 복구할 수 있는 fault-tolerant 구조Distributed (분산): 여러 노드에 데이터를 나눠 저장하고 처리함Dataset (불변성): 한 번 생성되면 변경되지 않으며, 항상 새로운 RDD를 반환 (함수형 방식)MapReduce와 비교유사한 분산 처리 모델이지만, 메모리 중심의 연산으로 훨씬 빠름MapReduce가 디스크 기반이라면, RDD는 메모리를 적극 활용MapReduce는 "무엇을 할지" ..
Redshift는 대용량 데이터 분석에 특화된 MPP(Massively Parallel Processing) 아키텍처를 기반으로 설계된 AWS의 데이터 웨어하우스이다. 대용량 데이터에서 쿼리 성능을 최적화하기 위해 DISTKEY, SORTKEY, VACUUM, ANALYZE, WLM 설정을 이해하고 활용하는 것이 매우 중요함. 1. DISTKEY – 데이터를 어떻게 "분산" 할 건지? Redshift는 MPP 구조이기 때문에 데이터를 여러 노드에 어떻게 나누느냐가 쿼리 성능에 직결됨이를 제어하는 것이 DISTKEY이다. 💡 DISTSTYLE 옵션유형설명AUTORedshift가 자동으로 선택 (권장, 최근 기본값)EVEN데이터를 모든 슬라이스에 균등 분산 (JOIN 성능 최적화에는 불리)KEY특정 컬..
Helm + Kubernetes 환경에서 발생한 PostgreSQL emptyDir 문제 및 해결 과정 기록 ❗ 문제 개요Kubernetes 환경에서 Airflow를 Helm으로 배포하는 과정에서 발생한 Pod 무한 재시작(CrashLoopBackOff) 이슈Web, Scheduler Pod가 계속해서 CreateContainerConfigError, Database does not exist 오류 발생원인은 PostgreSQL StatefulSet이 emptyDir로 구성되어 Pod 재시작 시 DB 초기화가 발생한 것=> 즉 팟이 쿠버네티스위에서 재시작되는경우, emptyDir 상태로 DB명이 없어짐 💻 증상 요약kubectl get podsairflow-0hyeon-web-0 0/1 ..

나의코드class Solution: def maximumWealth(self, accounts: List[List[int]]) -> int: array=[] for i in range(0,len(accounts)): result = 0 for l in range(0, len(accounts[i]) ): result += accounts[i][l] array.append(result) return max(array) 더 간결한 코드class Solution: def maximumWealth(self, accounts: List[List[int]]) -> int: ..

어려운문제 1개를 고생끝에 풀기보다,얼마나 꾸준하게 지속하였는지가 더 어렵다. class Solution: def runningSum(self, nums: List[int]) -> List[int]: for i in range(1,len(nums)): nums[i] += nums[i-1] return nums 1일 1코테시작누적합 배열 리턴 문제 for i range(범위) 알고있고,현재값과 이전 값을 현재인덱스에 덮어쓰면쉽게 풀릴 예정
- Total
- Today
- Yesterday
- datalabeling
- un-supervised
- planetscale배포
- 타입스크립트
- 비동기
- next.js
- 함수형프로그래밍
- k8s
- pscale
- nodejs
- CloudFlare
- 윈도우pscale설치
- semi-supervised
- asyncio
- SSR
- 우테코
- 대수자료구조
- window
- supervised
- nextj이미지저장
- Tailwind
- 위즈윅에디터
- helm
- 42서울
- create_task
- kubectl
- asyncio.gather
- Python
- ADT
- iris
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |