
솔직히 저는 AI가 단순히 '사물을 인식하는 수준'을 넘어 '상황을 이해하고 판단까지 내린다'는 개념을 처음 접했을 때 반신반의했습니다. 그런데 최근 NVIDIA가 공개한 Cosmos Reason 2라는 모델과, 이를 실제 현장에 적용한 사례들을 보고 나니 생각이 완전히 바뀌었습니다. 이제 AI는 카메라로 본 장면을 설명하는 걸 넘어, 왜 그런 상황이 발생했는지, 다음에 무엇을 해야 하는지까지 추론합니다. 이런 능력을 갖춘 AI를 '물리적 AI'라고 부르는데, 자율주행·스마트시티·산업현장에서 벌써 실전 투입되고 있습니다.
물리적(Physical) AI란 무엇일까?
물리적 AI는 단순히 센서 데이터를 받아 객체를 탐지하는 수준을 넘어섭니다. 카메라가 본 장면을 이해하고, 물리 법칙과 상식을 바탕으로 상황을 추론한 뒤, 실제 행동까지 결정하는 AI를 말합니다. 예를 들어 도로 위에 쓰러진 물체를 발견했을 때, 기존 AI는 "장애물 감지"로 끝납니다. 하지만 물리적 AI는 "이 물체가 어떤 종류이고, 왜 쓰러져 있으며, 어떻게 회피해야 안전한지"까지 판단합니다.
제가 처음 이 개념을 접했을 때는 다소 추상적으로 느껴졌습니다. 그런데 실제 사례를 보니 확실히 다릅니다. 공장에서 로봇이 사람과 부딪힐 뻔한 순간을 스스로 감지해 멈추거나, 자율주행 트럭이 공사 구간을 만났을 때 단순히 멈추는 게 아니라 "왜 위험한지" 이유를 파악한 뒤 차선 변경을 결정하는 식입니다. 이런 능력은 단순 객체 인식 모델로는 불가능합니다.
NVIDIA의 Cosmos Reason 2는 이런 물리적 AI의 핵심 엔진입니다. 비전 언어 모델(VLM) 기반으로, 이미지나 영상을 보고 상황을 언어로 설명할 뿐 아니라 물리적 맥락을 이해합니다. 게다가 오픈소스로 공개돼 있어 누구나 자신의 데이터로 파인튜닝할 수 있습니다. 2억 파라미터와 8억 파라미터 두 가지 버전이 있어, 엣지 디바이스에서도 돌릴 수 있고 클라우드에서 대규모로 활용할 수도 있습니다.
스마트시티에서 AI가 교통 상황을 어떻게 이해할까?
Milestone Systems는 전 세계에서 가장 많은 CCTV 카메라를 관리하는 영상 관리 시스템(VMS) 업체입니다. 이들은 Cosmos Reason 2를 기반으로 교통 특화 VLM을 만들어 스마트시티에 적용하고 있습니다. 단순히 차량을 세는 게 아니라, 날씨 상태·가시거리·도로 표면 상태까지 종합적으로 판단합니다.
제가 인상 깊었던 건 비가 오는 밤 도로 영상을 분석한 사례였습니다. 사람이 보기엔 조명이 켜져 있어 '가시성 양호'로 보일 수 있는데, AI는 "비가 오고 야간이므로 가시성은 보통 수준"이라고 판단했습니다. 교통 전문가의 관점을 학습한 결과입니다. 이런 식으로 도로 위 사고나 장애물을 감지하면, AI가 자동으로 상황 보고서를 작성해 관제센터 운영자에게 전달합니다.
Milestone은 유럽과 미국 도로 데이터 각각 7만 5천 개씩을 확보해 모델을 파인튜닝했습니다. 차선 방향·사고 유형·기상 조건 등 교통 특수 상황을 학습시켜, 범용 VLM보다 훨씬 정교한 판단을 내립니다. 실제로 도시 규모로 테스트했을 때 20만 건 이상의 쿼리를 처리하면서도 응답 시간은 10~15초 수준이었습니다. 제가 생각하기에 이 정도 속도면 실시간 관제 용도로도 충분합니다.
산업 현장에서의 AI 에이전트
Telit Cinterion은 공장 자동화 솔루션 업체로, 제조 현장의 기계·센서·ERP 시스템을 연결하는 플랫폼을 만듭니다. 이들은 Cosmos Reason 2를 엣지 디바이스에 배포해, 공장 내 로봇과 작업자의 안전을 실시간으로 감시하는 AI 에이전트를 구축했습니다.
제가 흥미롭게 본 대목은 로봇 오류 복구 시스템입니다. 작업자가 실수로 로봇 팔을 건드려 에러가 발생하면, AI는 영상과 센서 데이터를 동시에 분석합니다. "사람이 로봇에 접촉했다"는 사실을 파악하고, 로봇 매뉴얼과 과거 이력 데이터를 참조해 복구 절차를 자동으로 제시합니다. 심지어 작업자가 "바로 직전에 무슨 일이 있었나요?"라고 물으면, AI가 영상을 되돌려 보며 상황을 설명해줍니다.
또 다른 사례는 실시간 안전 감시입니다. AI가 카메라 영상을 프레임 단위로 분석하다가 사람이 로봇 작업 영역에 너무 가까이 다가가면 즉시 로봇을 멈춥니다. 제조 현장은 클라우드 연결 없이 모든 처리가 현장(온프레미스)에서 이뤄져야 하는데, Cosmos Reason 2가 경량화돼 있어 엣지 디바이스에서도 무리 없이 돌아간다는 점이 큰 장점입니다.
자율주행 트럭의 AI활용
Plus AI는 레벨4 자율주행 트럭 기술을 개발하는 업체로, 이미 700만 마일 이상의 실제 주행 데이터를 보유하고 있습니다. 이들은 Cosmos Reason 2를 데이터 큐레이션과 주석 작업에 활용합니다. 자율주행 개발에서 가장 중요한 건 '드문 위험 상황'을 학습시키는 일인데, 방대한 영상 속에서 이런 장면을 찾아내는 게 쉽지 않습니다.
Plus AI는 Cosmos Reason 2에게 "일상적이지 않은 상황을 찾아라"는 지시를 내립니다. 그러면 AI가 주차장에서 요가 수업이 열리는 장면, 고속도로에 떨어진 포터블 화장실, 심각한 교통사고 현장 같은 이례적 상황을 자동으로 골라냅니다. 이런 장면들은 자율주행 시스템이 반드시 대응 방법을 학습해야 하는 케이스입니다.
제가 놀랐던 건 단순히 장면을 찾는 데 그치지 않는다는 점입니다. AI가 해당 장면에 대해 "왜 위험한지" 이유를 설명하고, "어떻게 대응해야 하는지" 권장 행동까지 제시합니다. 예를 들어 고속도로 우측 차선이 폐쇄됐다는 전광판을 읽고, "좌측으로 차선을 변경해야 한다"는 판단을 내립니다. 이런 고품질 주석 데이터가 있어야 자율주행 시스템의 추론 엔진을 제대로 학습시킬 수 있습니다.
지금까지 AI는 주로 '무엇'을 보는지에 집중했다면, 이제는 '왜' 그런 상황이 발생했고 '어떻게' 대응해야 하는지까지 판단하는 단계로 진화했습니다. 제 생각에 이런 변화는 단순한 기술 개선이 아니라, AI가 인간의 상식과 판단력을 닮아가는 근본적인 전환입니다. 자율주행이든 스마트시티든 산업 자동화든, 결국 신뢰할 수 있는 AI는 '생각하는 AI'여야 한다는 확신이 듭니다. 여러분도 Cosmos Reason 2를 직접 시도해보시길 권합니다. 오픈소스이고 파인튜닝 레시피도 공개돼 있어, 충분히 자신의 분야에 맞춰 활용할 수 있습니다.
---
참고: https://www.youtube.com/watch?v=kcrDwWgRoTo