Intel Optimization at Netflix

Tommy HoSung.Yi

아보카도 3호기

Intel Optimization at Netflix

Dec 6, 2025

Linux
Performance

기사참조:Intel Optimization at Netflix

1. 무엇을 이야기 하고 있나?

Netflix의 “Performance Engineering 팀”은 스트리밍 서비스에 필요한 인프라 비용을 절감하고, 동시에 전세계 사용자에게 안정적이고 고성능의 비디오 스트리밍을 제공하는 것을 목표로 함.
이를 위해 AWS 퍼블릭 클라우드 위에서 동작하는 다양한 워크로드(video 인코딩, 마이크로서비스, ML-기반 추천/인퍼런스 등)에 대해 벤치마킹, 프로토타이핑, 성능 튜닝, 프로파일링, 프로덕션 이슈 트라이애지 및 최적화를 수행.
Intel과의 협업으로, CPU-레벨 SIMD 명령과 Low-level 프로파일링 툴을 도입 — 단순 아키텍처/컴파일러 최적화만 아니라, 실제 프로덕션 scale에서 비용 대비 성능 향상을 추구

2. 넷플릭스가 도입하고 효과를 본 기술들

사용된 기술 — AVX-512, VNNI, oneDNN, 프로파일링 툴

2.1 Netflix가 도입하여 효과를 본 주요 기술들:

AVX-512 + VNNI (Vector Neural Network Instructions): AVX-512: 512-bit 벡터 명령을 통한 데이터 병렬 처리. CPU만으로 높은 처리량을 요구하는 작업(video encoding, 데이터 처리, ML inference 등)을 가속.
VNNI: 특히 딥러닝 inference, 행렬 연산, convolution 등에 유리하도록 설계된 명령 세트. Netflix는 ML 인퍼런스를 GPU가 아닌 Intel CPU + VNNI 로 돌리는 게 “비용 효율 + 실용성” 측면에서 낫다고 판단.

2.2 oneDNN (Intel’s Deep Neural Network library):

video 인코딩 파이프라인 — 특히 FFmpeg 같은 워크로드에 적용할 때, oneDNN을 사용하여 15% 성능 향상에서부터 “최대 2×” 속도 향상까지 본 사례가 있다고 보고됨. 이로 인해, 거대한 비디오 라이브러리를 매년 인코딩하고 재인코딩하는 Netflix 입장에서 “클라우드 CPU 시간 절약 → 비용 절감” 효과가 큼.

2.3 프로파일링 & 분석 도구:

VTune, PerfSpect (Linux perf 래퍼), ProcessWatch, PCM 등 사용. 이들로 CPU-및 메모리 사용, 명령어 mix, cache miss, branch misprediction 등 low-level 하드웨어 이벤트를 모니터링, 분석.
예: 마이크로서비스를 단순 “더 큰 클라우드 인스턴스로 옮긴 뒤” latency가 개선되지 않는 regression 현상이 있었는데, VTune+PMU/PEBS 분석을 통해 “cache line false／true sharing (공유 캐시의 비효율적 사용)”이 원인으로 확인됨. 데이터 구조 padding 삽입 + JDK 패치로 throughput을 3.5× 향상시키고, 평균/꼬리 지연(latency)도 줄임.

3. 파이프라인 최적화: 비디오 인코딩 + ML + 워크로드 처리

3.1 Netflix의 스트리밍 파이프라인에 대한 핵심 설계 및 최적화 방식:

비디오 스트리밍을 위해, 원본 영상 자산을 클라우드에서 다운샘플 → 인코딩 → 전송 → 단말 디코딩 & 업스케일 방식으로 처리. 다운샘플 단계에서는 단순 보간 필터(lanczos)뿐 아니라, 신경망 기반 다운샘플러(neural-based Downsampler) 를 학습시켜 사용.
이 방식은 다양한 업샘플러(bilinear, bicubic, lanczos)에 대해 품질이 개선된 것으로 보고됨. 또한 인코더(H.264, HEVC, VP9, AV1 등)와 독립적이어서 범용성 확보.
인코딩된 비디오는, 다시 원본 해상도로 업스케일 후, 품질 필터(예: libvmaf)를 이용해 화질 검증. 이렇게 함으로써, 대규모 콘텐츠 라이브러리를 유지하면서도 “최소한의 리소스 + 충분한 화질” 타협점을 찾음.
이런 인코딩 워크로드에 대해 AVX-512 / oneDNN 등을 적용하면, CPU 시간 절감 + 인코딩 throughput 증가 → 클라우드 비용 절감 + 서비스 확장성 확보.
또한 ML inference 워크로드 (예: 사용자 추천, 개인화 메타데이터 처리 등)는 GPU가 아닌 CPU + VNNI + Java-based inference + mixed precision (bfloat16, INT8) 조합으로 운영. 비용-효율과 기존 자바 생태계 활용이라는 현실적인 타협

4. 리눅스 / 오픈소스 운영 경험을 관점으로

하드웨어 기능 활용 + 소프트웨어 튜닝 + 프로파일링의 조화: 단순히 라이브러리 업그레이드나 설정 변경만이 아니라, CPU-instruction level 최적화(벡터화), 메모리 레이아웃 튜닝(padding, false-sharing 제거), PMU 기반 분석 등 low-level 최적화를 주저하지 않아야.
대량 데이터 처리를 위한 워크로드엔 SIMD + multi-thread + vectorized 라이브러리 사용 고려: 특히 영상, 미디어, 머신러닝, JSON 파싱, 데이터 처리 등 CPU-bound 작업에서 AVX-512 / SIMD / optimized 라이브러리(oneDNN, simdjson, etc.) 도입 검토.
프로파일링 & 측정 루틴의 중요성: 실제 운영 환경에서 perf/VTune/PCM 등을 써서 병목이나 리그레션을 탐지하고, “문제가 되는 지점 = 코드 + 환경 + 하드웨어의 교차점”이라는 인식.
비용/성능/확장성의 균형된 설계: Netflix처럼 클라우드 기반 거대 서비스라면 단순 성능 향상이 아니라 “클라우드 자원 비용 절감 + 운영 효율 + 서비스 품질 유지”라는 균형을 고려해야. 오픈소스 커뮤니티에서도 이런 설계 철학은 가치가 큼.

5. 무엇을 시사하는가?

이 글은 단순 “최신 CPU 쓴다 → 빨라짐”을 넘어서, 하드웨어 가속 + 프로파일링 기반 최적화 + 워크로드 이해를 통해 “현실적인 조건에서 성능 + 비용 + 품질”을 모두 챙긴 케이스다. 오픈소스/리눅스 진영에서 우리가 시스템을 설계하거나 튜닝할 때도, 이처럼 심층적인 접근이 필요하다는 것을 보여준다. 특히 커널/시스템 운영 경험이 많은 사람이라면 — 벡터 명령, 메모리 레이아웃, 프로파일링 — 이런 실무적인 기법들이 단순한 이론이 아닌 실전에서의 힘을 가진다는 점을 재확인할 수 있다고 본다