현대가 웨이모랑 합작해 비전 라이다 기반으로가서 테슬라를 잡는다는 말은 아직도 산업을 이해하지 못한 발상입니다.
최대한 설명 드려 볼게요.
레벨 4–5가 되면 “얼마나 장애물을 잘 감지하느냐”보다, 결국 인공지능이 사회적 맥락을 얼마나 자연스럽게 이해하고 센스 있게 대처하느냐가 핵심이 됩니다. 예를 들어 처음 가본 코스트코 입구 구조를 파악한다든지, 좁은 상점 앞 인도에 잠시 올라 타 정차할 때 보행자 동선을 비워주며 인도 가장자리에 붙여 세운다든지, 처음 온 지하주차장에서 ‘출구’라는 개념을 보고 스스로 길을 찾아 나간다든지, 교차로에서 앞차가 무언가 때문에 뒤로 물러나야 하는 상황을 이해하고 자연스럽게 후진해 공간을 만들어주는 것 같은 행동들이죠. 이런 건 단순한 장애물 감지로 해결되는 문제가 아닙니다. 비행기 선택할 때 “이 항공사는 과거 사고가 4건이고 저 회사는 2건” 같은 차이가 실제 선택에 영향을 주지 않고 비즈니스 이코노미석 등 편의 시설이 선택에 영향을 주는 것처럼, 자율주행도 일정 수준을 넘으면 소비자가 평가하는 기준은 ‘안전성’보다 ‘사회적 운전 능력’ 으로, 그로인해 생기는 사용자 편의성으로 넘어가게 됩니다.
그리고 중요한 건 비전 기반이라고 해도 E2E(end-to-end)가 아니면 이런 사회적 주행(Social Driving)은 원천적으로 구현되지 않는다는 점입니다. 웨이모, 크루즈, 라우프가 모두 채택한 라이다 중심 구조는 Perception → Prediction → Planning → Control이 분리된 전통적인 모듈 방식인데, 이 구조는 라이다가 메인인지 서브인지와 관계없이 비전이 이해한 사회적 의미나 사람 의도가 최종 행동 정책에 직접 반영될 자리가 없습니다. 라이다는 기하학적 정보만 강하고 의미·맥락적 정보가 거의 없기 때문에, 시스템 전체가 결국 “보수적 장애물 회피기”로 동작하게 됩니다.
반면 테슬라는 E2E 신경망을 사용해서 “의미 → 판단 → 행동”을 하나의 네트워크로 직접 연결합니다. 사람처럼 학습한 사회적 맥락이나 암묵적 규칙이 그대로 주행 정책에 들어갈 수 있는 구조입니다.
가끔 “카메라 메인을 유지하고, 라이다는 단순 보조로만 쓰면 되는 것 아니냐”는 질문도 생각해봤는데, 이건 구조적으로 해결책이 되지 않습니다. 라이다가 들어오는 순간 반드시 Multi-Sensor Fusion → Perception → Prediction → Planning → Control 구조가 생기기 때문입니다. 이 모듈 구조에서는 사람이 암묵적으로 판단하는 ‘사회적 센스’ 보행자의 의도, 양보 신호, 출입구 구조의 의미, 사람 동선을 배려한 정차, 처음 온 지하주차장에서 출구 방향을 추론하는 능력같은 고차원적 의미 판단이 행동 정책에 연결될 수 있는 경로가 존재하지 않습니다.
결국 핵심은 센서 종류가 아니라 아키텍처 구조입니다.
라이다가 들어오는 순간 구조는 모듈형으로 고정되고, 그 순간 사회적 주행 능력을 얻을 수 있는 가능성은 사라집니다. 반대로 테슬라는 Vision-only + E2E라는 조합 덕분에 인간형 사회적 주행에 도달할 수 있는 유일한 방향성을 갖고 있습니다.
---------
댓글을 작성하려면 로그인하세요.