기술의 생명을 지키는 일

NAVER Cloud | Tech | 김병국
18년 차 서버 인프라 엔지니어 김병국은 네이버의 기반 기술을 탄탄하게 쌓아 올리며 네이버의 크고 작은 성장에 버팀목이 되어 왔다. 2022년 데이터센터에 화재가 나는 절체절명의 순간에도 네이버의 서비스가 막힘없이 돌아가고, AI가 부상하자마자 이를 위한 초거대 슈퍼컴퓨팅 클러스터를 발빠르게 구축할 수 있었던 것도 네이버에 서버 인프라 기술이 오랫동안 축적되어 있었던 덕분. "서버 엔지니어는 기술과 서비스의 생명을 책임지는 의사와 같습니다." 서버를 돌보는 의사의 마음, 네이버의 서비스와 기술들이 안전하게 지켜지고 있는 이유다.
서버 엔지니어가 하는 일을 간단히 소개해 주세요.
서버는 기술의 기반이 되는 것이다 보니, 새로운 기술적 시도를 위해선 선제적으로 서버 인프라가 받쳐줘야 합니다. 서버 엔지니어는 그를 위해 서버의 설계, 구축, 운영 및 유지보수 역할을 담당하고 있는데요. 서버의 성능을 최적화하기 위한 아키텍처를 설계하고, 문제 발생 시 진단/분석하고 복구를 위한 후속조치를 하는 일, 그리고 지속적인 업데이트 작업을 통해 서버가 효율적으로 작동하도록 하는 일을 수행하고 있습니다.
궁극적으로는 서버가 문제 없이 안정적으로 운영될 수 있도록 하는 것이 저희 일의 목표 지점입니다.
네이버 데이터센터 각에 있는 엄청난 규모의 서버 운영 관리도 담당하고 계신다고요.
저희 데이터센터는 내부 기술부터 시설까지 모두 네이버의 자체 기술로 이뤄져 있는데요. 다른 어떤 IDC(Internet Data Center)를 가더라도 춘천이나 세종 각보다 더 잘 되어 있는 IDC를 본 적이 없습니다. 보통 해외에 더 잘되어 있을 거라고 생각을 많이들 하실 텐데, 실제로 선진 사례라 꼽히는 데이터센터를 가 봐도 저희가 훨씬 잘하고 있다는 생각이 듭니다.
저희 춘천 데이터센터 각에만 10만 대, 세종 데이터센터에도 60만 대로 총 70만 유닛의 어마어마한 규모의 서버를 운영하고 있습니다. 이렇게 한두 대가 아니라 수십만 대의 서버들을 운영하고 있기 때문에 효율적인 관리 방식을 찾아 내는 것이 중요한데, 저희 팀에서는 서버 하드웨어 인프라 운영에 필요한 자동화 전반과 수십만 대의 서버를 어떻게 하면 더 잘 모니터링하고 관리할 수 있을지 고민하고 최적화하는 일을 하고 있습니다. 그리고 웹 서비스, DB, 클라우드 등 어떤 목적/형태로 사용하느냐에 따라서 아키텍처 설계도 굉장히 달라지는데요. 각각의 서버가 네이버 서비스 플랫폼 성격에 최적화된 스펙으로 구축될 수 있도록 전사 표준 아키텍처를 만드는 것 또한 저희가 맡고 있는 중요한 미션 중 하나입니다.
매해마다 서버 기술도 변화하고 있기 때문에 선행 기술을 끊임없이 연구하고 검증하고 있어요. 속도감 있게 안정적인 시스템을 구축할 수 있도록 준비하는 역할을 저희 팀에서 수행하고 있는데요. 기술을 네이버 표준에 맞는 환경으로 재정의하고 성능을 최대한 끌어올려서 수백, 수천 대의 시스템이라도 국내/해외 관계없이 원격으로 최적화된 운영 관리를 할 수 있다는 것이 자랑이라 생각합니다.
그리고 저희 데이터센터에는 저희 서버 엔지니어링뿐만 아니라 건물, 시설 등의 물리적 환경을 구축하는 인프라 퍼실리티 기술도 집약되어 있어요. 에너지에 대한 고민을 담은 친환경적인 설계부터 최근 세종 각에는 서버를 관리하는 로봇과 드넓은 데이터센터에서 이동을 도와주는 자율주행 버스도 운행되고 있을 정도니까요. 서버 엔지니어로서 이런 훌륭한 자원을 바탕으로 일할 수 있다는 사실이 뿌듯한 마음입니다.
서버 ‘인프라’라는 이름에서도 알 수 있듯 기반 기술로서 없어서는 안될 존재이지만, 동시에 수면 위로 잘 드러나지 않는 일이기도 한 것 같습니다.
어쩌면 조금 묵묵한 마음가짐을 갖는 것 또한 서버 엔지니어로서의 역량이지 않을까 하고 생각합니다. 서버 운영 업무는 사실 인프라라는 특성 상 앞에서 조명받는 일이기 보다는, 어딘가 이슈가 발생했을 때 특히 부각되는 일이기도 합니다. 문제상황을 방지하기 위해 시스템을 이중화하는 것부터 시작해서 인프라 구축을 위한 여러가지 많은 노력을 기울이고 있지만, 그런 작업들 자체가 사실 밖으로 표가 나는 일들은 아니다 보니까요. 어떤 프로젝트를 하고 났을 때 결과물에 대해서 ‘우리가 이런 것들을 했다’라고 이야기하기는 다른 영역들보다 어려운 부분도 있다 보니, 솔직한 마음으로 가끔은 조금 아쉬운 마음이 드는 때도 있는 것 같아요.
하지만 결국엔 모든 밑바탕에는 저희의 인프라가 있기 때문에 네이버의 기술과 서비스가 안정적으로 제공될 수 있는 것이고, 또 수천만 사용자들이 그걸 누릴 수가 있는 것이니까요. 그 자부심만큼은 누구보다도 모자라지 않다고 생각하고, 그게 제가 할 일을 묵묵하고 꾸준하게 일궈 나갈 수 있도록 하는 동력이 되지 않나 싶습니다.
서버 인프라 엔지니어로서 일을 잘한다는 것은 어떤 것일까요.
서버 운영을 하다 보면 실시간으로 이슈 상황을 많이 마주하게 됩니다. 저희가 담당하는 서버의 규모가 엄청나다 보니, 그만큼 대비해야 하는 이슈의 폭과 규모도 커지게 됩니다. 그 속에서 인프라 엔지니어로서 ‘적시성’이 굉장히 중요하다고 생각해요. 수천만 유저들이 사용하는 서비스가 끊어지지 않도록 해야 하는 것은 저희의 숙명이기 때문에 적확한 타이밍에 필요한 기술을 적용하고 문제에 대응하는 것이 필수적입니다. 인프라 운영을 하다 보면 물론 서버에서 문제가 발생할 수 있거든요. 중요한 건 그 문제가 ‘왜’ 발생했는지에 대한 명확한 원인을 파악하고 그에 맞는 조치를 취해서 재발하지 않도록 하는 것이 인프라 엔지니어로서의 몫이라 생각합니다.
저희가 하는 일이 어쩌면 의사의 일과도 닮아 있는 것 같아요. 병의 원인을 찾아 진단하고, 골든타임 내에 필요한 조치를 취해서 치료하고, ‘2주 뒤에 한번 다시 보시죠’하듯 병이 잘 치료됐는지, 상처가 잘 아물었는지 지속적으로 살펴보는 사이클이 마치 저희가 서버 인프라를 운영하는 사이클과 비슷하다고 생각해요. 그리고 나아가서 ‘진짜로 다 나은 거 맞나요?’하는 질문에 ‘믿으셔도 됩니다.’라는 답을 자신 있게 내어 놓을 수 있는, 믿음직한 의사 같은 서버 엔지니어가 되고 싶단 생각을 합니다.
서버가 다운되면 서비스 자체가 되질 않으니까요. 네이버의 모든 서비스와 기술이 건강하게 살아 숨쉴 수 있도록 하는 일이란 생각으로, 늘 제가 하는 일에 대해서 묵직한 사명감을 안고 있습니다.
➡️ 인터뷰 전문 보기
연관 콘텐츠
- People 2026.02.19AI시대, 리더는 무엇으로부터 길을 찾을까?
- People 2026.01.23'몰입'과 '효율'에 관한 생각
- People 2025.03.05상상이 향하는 목적지
- People 2025.03.05오아시스를 찾을 때까지
- People 2025.03.05당연하지만, 당연하지 않은 일
- People 2024.02.21기술로 디자인하다