Redshift는 대용량 데이터 분석에 특화된 MPP(Massively Parallel Processing) 아키텍처를 기반으로 설계된 AWS의 데이터 웨어하우스이다. 대용량 데이터에서 쿼리 성능을 최적화하기 위해 DISTKEY, SORTKEY, VACUUM, ANALYZE, WLM 설정을 이해하고 활용하는 것이 매우 중요함. 1. DISTKEY – 데이터를 어떻게 "분산" 할 건지? Redshift는 MPP 구조이기 때문에 데이터를 여러 노드에 어떻게 나누느냐가 쿼리 성능에 직결됨이를 제어하는 것이 DISTKEY이다. 💡 DISTSTYLE 옵션유형설명AUTORedshift가 자동으로 선택 (권장, 최근 기본값)EVEN데이터를 모든 슬라이스에 균등 분산 (JOIN 성능 최적화에는 불리)KEY특정 컬..
Helm + Kubernetes 환경에서 발생한 PostgreSQL emptyDir 문제 및 해결 과정 기록 ❗ 문제 개요Kubernetes 환경에서 Airflow를 Helm으로 배포하는 과정에서 발생한 Pod 무한 재시작(CrashLoopBackOff) 이슈Web, Scheduler Pod가 계속해서 CreateContainerConfigError, Database does not exist 오류 발생원인은 PostgreSQL StatefulSet이 emptyDir로 구성되어 Pod 재시작 시 DB 초기화가 발생한 것=> 즉 팟이 쿠버네티스위에서 재시작되는경우, emptyDir 상태로 DB명이 없어짐 💻 증상 요약kubectl get podsairflow-0hyeon-web-0 0/1 ..
- Total
- Today
- Yesterday
- next.js
- 대수자료구조
- supervised
- semi-supervised
- kubectl
- nodejs
- 윈도우pscale설치
- 위즈윅에디터
- 함수형프로그래밍
- datalabeling
- SSR
- iris
- k8s
- CloudFlare
- 42서울
- pscale
- Python
- helm
- asyncio.gather
- 우테코
- ADT
- Tailwind
- asyncio
- 타입스크립트
- window
- create_task
- planetscale배포
- nextj이미지저장
- 비동기
- un-supervised
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |