티스토리 뷰

Computer Vision

Autonomous Driving Overview : 자율주행 분야 기술 리뷰 및 공부

꿈꾸는컴퓨터 2024. 1. 10. 16:49

Introduction

History

1970년대 영국 도로 연구소에서 자율주행 비디오 공개로 관심 얻음.
1980년대 다양한 대학들이 자율주행 연구 참여
2010년대 초, 차량 제조업체들이 참여 시작

Levels of Driving Automation

현재 수년동안 Level 2 에 머물고 있음
딥러닝의 발전으로 한계를 넘고 있음
- 딥러닝의 단점으로 문제도 있음 : the blackbox and inexplicable nature of neural networks

Research Trend

현재 분야 내 중요한 키워드들을 시각화 한 모습
중요한 Sub part
- Perception and Loacalization
- Motion Planning and Decision-making
- Simulators and Scenario generation

Architecture & System

순차적으로 엔지니어링 하는 Layer Architecture 와, Source data 에서 바로 주행 정책을 학습하는 End-to-End Architecture 가 있다.

Layer Architecture

세가지 레벨의 레이어로 나눌 수 있음
- Perception and Simultaneous localization an mapping
  - to construct the environment map
- Planning
  - navigating the vehicle
- Control layer
  - calculates steering wheel angle, accelerator opening, brake force, and other signals

End-to-End architecture

Learning driving policies directly from raw sensor data (e.g., images, point clouds, outputs brake, accelerator, and steering operations)
Annotation 에 대한 요구가 적어 인기가 많아지고 있다.
CNN, RNN, reinforcement learning 등을 기반으로 계속 연구되었음
Appoach
- NVIDIA와 Comma AI는 엔드-투-엔드 딥 러닝을 사용한 무인 시연 시스템을 개발했습니다 (George et al., 2018) → 잘 안나옴
- (Chitta et al., 2021) proposed the neural attention field, NEAT
  - BEV scene coordiinates 를 waypoint 와 semantic 정보로 매핑. 고차원 2D image feature를 사용해서 압축시키는것을 반복
  - → 관련없는 정보를 무시하고 초점을 맞출 수 있음
Sensor Data
- End-to-end 경우 Image 만 사용하는 경우 정확성 안정성이 떨어짐
- multi-modal 과 fusion of multiple sensors 를 기반으로한 end-to-end 모델도 연구된다
  - 카메라와 라이다를 fusion 하여 사용할 시 더 우수한 성능을 보였음
  - Approach
    - (Prakash et al., 2021) used an attention mechanism to integrate image and LiDAR representations, and proposes a new multimodal fusion Transformer
    - Transformer 의 self-attention 메커니즘으로 다른 modality 의 feature extraction layer 와 fuse 하고 정보를 통합하여 사용한다

Comparison

Layer
- 장점 : modular design and reliability.
- 단점 : increased complexity and the possibility of delays in system responses
End-to-End
- 장점 : enhancing efficiency by processing input data through a single neural network that outputs control commands directly
- 단점 : cost of a heavy reliance on the quality of the training data and challenges in understanding how the system makes decisions

Technology

Scene Perception and Localization

ML 기술 기반으로 환경을 인식하고 공간을 정의함
Sensor data 를 사용하는 기술들이 주로 연구됨

Sensor

Camera / Lider / Rader
- 3가지가 주로 쓰임
Camera
- Detail 한 질감과 색상의 미묘한 차이를 해석할 수 있음
- Lane Detection 과 Traffic Sign Recognition 등 에 필수적임
- 고해상도 이미지를 처리할 때 Computing resource를 많이 써야함
Lidar
- 탐지 정밀성이 좋음
- Obstacle avoidence / Pedestrian detection 등에 좋음
- 기상조건, 무게, 고비용 등의 단점이 있음
Rader
- 광범위한 시야와 먼 거리에서 객체 감지 가능
- Adaptive Cruise control, Blind spot warning 등에 쓰임
- 라이다보다 낮은 Spatial resolution, Angular accuracy

Object Detection

주변 환경을 이해하는데 기반이 되는 객체 탐지 기술
목적
- 물체들을 식별, 분류, 위치를 파악하는 것
최신 AI 알고리즘들이 주로 적용됨
Image Object Detection
- Region-based CNN
  - two-step process : region proposal and refinement
  - Faster RCNN 과 RPN 을 활용한 Attention based framework 가 고해상도에서 작은 객체 감지에 좋은 성능 보임
- Single-stage detection (YOLO / SSD)
  - 빠르기 때문에 동적 상황에 대응하는 Real-time 감지에 유리
  - approach
    - Complex-YOLO 는 Lidar 내에서 3D 객체를 감지하는데 최적화 됨
    - SSD는 다양한 스케일을 가지고 있어 다양한 크기의 객체 감지가 가능하며, 속도가 중요할 때 많이 쓰이고 있음
Point Cloud Object Detection
- spatial coordinates and attributes such as color or intensity 같은 속성들이 포함되어 있어 풍부한 정보를 제공함
- Point-based
- Voxel-based
- 2D-Projection-based

Semantic Segmentation

pixel level 에서 환경 인식
주석 작업 하는게 어려움
Architecure
- 이전에 Fully Convolutional Network 기반으로 시작됨
- VGG16 같은 Classification Network를 변형하여 “Encoder” 로 만들어서 사용
  - 낮은 resolution 의 feature map 을 픽셀단위 예측에 사용하기 위해 “Decoder” 사용
- Ex)
  - SegNet (Badrinarayanan et al., 2017) - VGG 기반으로 인코더 디코더 사용. 좋은 성능
다양한 공간 스케일에서 local detail 과 global context 를 균형있게 활용하기 위해 사용하는 방법들
- CRF
- Dilated Convolutions
- RNNs
자율주행에서 환경 데이터 추출 및 해석에 필수적인 도구로 사용됨
복잡하고 도전과제가 많지만 잠재력이 많음

Multi-Object Tracking

주변에서 일어나는 상황을 보고 추적하고, 주변 환경의 상세한 지도를 동시에 구축할 수 있도록 함
여러 객체를 감지하고 고유한 식별 정보를 유지하여 지속적으로 업데이트
Tracking Approach
- Online Tracking
  - image frame 을 step-by-step 으로 신속하게 처리
- Offline Tracking
  - 전체 데이터를 한번에 분석해 정확하게
Object detection 기반으로 추적 알고리즘을 사용함
Data association match
- 연속적인 프레임에서 객체들을 매치
- Hungarian algorithm, joint probablistic data associataion
- Kalman Filter, Particle Filters
자율주행을 매끄럽게 잘 돌아가게 하는 기술

Localization an Mapping

GNSS나 IoV와 같은 기존 위치 결정 시스템의 한계를 넘어서 SLAM 기술을 통해 위치추정과 Mapping 에 사용함
Visual SLAM
- Visual Odometry, back-end, loop closure detection, mapping 으로 구성되어 있음
…추후 추가…

Motion Planning and Decesion-Making

Motion planning
- 출발지에서 목적지까지의 최적의 경로를 찾는 과정
Decision-making
- 실시간 환경 인식, 센서 및 규칙에 따라 동적 교통 상황에 대응할 수 있게 하는 것
Path planning, trajectory prediction, behavior arbitration 등의 요소들이 딥러닝 방법론으로 큰 향상을 겪었음
환경에 적응하고 미래 경로 행동을 예측하기 위해서는 인간처럼 생각할 필요가 있다.
- AI 를 사용하여 Flexibility 와 AdaptablilTity 얻음

Trajectory prediction

Generative model
- 생성 모델을 사용하여 trajectory prediction(궤적 예측) 에 사용
  - 인코더, 디코더 프레임워크, GAN 등을 활용함
GNN base method를 사용하여 순차적인 정보를 예측함
Multi-modal 로 RNN 과 Deep Reinforcement Learning 을 결합해 예측 전략에 사용함
- ex) (Cai et al., 2019; Gao et al., 2018) - 카메라 이미지, 고수준 명령 및 자율 주행의 이전 궤적을 수신하고 3 초 후에 충돌하지 않는 궤적을 출력하기 위해 학습하는 CIL 엔드 투 엔드 모델

Decision-making

AI logic-based approach
- The rule-based reasoning algorithm (expert system)
  - 큰 문제를 여러 작은 문재로 변환하여 사용, 명확한 의미가 있음
  - 단점 : 다수의 규칙을 디자인해야 하고 계산 시간이 길며, 전문가의 지도가 필요함
- Final State Machine(FSM)
  - 환경의 변화에 따라 trigger 되는 상태 및 상태간 전이를 나타냄
  - 간단하고 제어 가능하고 복잡한 관계를 설명할 수 있음.
  - 단점 : 결정론 적이기 때문에 unknown situation 에 대한 일반화를 할 수 없음
- Decision Tree
  - 전략을 체계적으로 나열하여 특정 시나리오(ex: 보행자 행동 예측) 에 사용하기 좋음
- partially observable markov decision process (POMDP)
  - 동적이고 불확실한 환경을 다룰때 사용됨
  - perception 과 planning 사이를 수학적으로 탄탄하게 연결할 수 있음
- 어떤 방법을 사용할지는 주행 환경이 얼마나 복잡하고 예측하기 어려운지에 따라 달라진다.
AI heuristic algorithms
- 상태 공간을 그래프로 이산화하고, 각 문제에 따른 최적화 문제의 솔루션으로 사용함
- SVM 등을 사용할 수 있음
- MetaHeuristic 알고리즘을 사용할 수 있음
Reinforcement Learning
- motion planning 에서 큰 인기를 얻고 있음
- Approach
  - 모델 구성 : 동적 환경을 모델링하고 보상함수를 구성해 누적 보상을 극대화 하려고 함
  - 모델 없는 방법 : 미리 정의된 모델 없이 환경과의 상호작용으로 학습

Simulator & scenario generation

— 추후 추가 —

Current Chanllenges and Limitations

각 시스템을 발전시키는 것 뿐 아니라, 복잡한 서브시스템을 매끄럽게 통합해야한다.

Challenges

높은 안전 기준
- 실시간으로 완벽하게 동작해야하며 완벽하게 작동해야한다.
도시 환경의 복잡성
- 높은 밀도의 동적이고 예측할 수 없는 요소들이 많음
- 복잡한 도시 교통 때문에 규제 및 인프라도 중요
Robust Performance in Adverse Weather
- 악천후에서도 견고한 성능이 유지되어야 함
Dynamic and Unpredictable Scenarios
- 공사구역 통과 또는 갑작스런 장애물 같이 예상하지 못한 부분 및 윤리적 고려
Interpreting and Reacting to Human Behavior
- 사람의 행동과 의도를 이해해야함. 문화와 사회적 규범에 따라 크게 다를 수 있음
Ethical Concerns (윤리적 우려사항)
- 도덕적 딜레마 등 윤리적 원칙
법률 및 규제 프레임워크
- 개인정보 보호 등 민감한 정보 고려
High-Definition Mapping and Localization
- 고정밀 지도를 최신상태로 유지하고 업데이트 해야하는데 드는 자원
Cybersecurity
- 해킹등의 위험
공공 신뢰 얻기

Future Direction

어떻게 자율주행 시스템을 발전시켜 나갈 수 있을것인가
Tech Innovation Growth:
- 센서기술, 인공지능, 처리능력 및 네트워크 의 발전을 통해 정교해질 것이다.
- VR, AR 등은 시뮬레이션을 만드는데 도움이 될 것이다.
안전에 대한 패러다임 제고
- 인간 관련 문제로 발생하는 사고들을 줄이고 일관적이고 안전한 도로 주행 문화를 만들어 나갈 수 있을 것이다
교통 흐름 최적화
- 차량간 통신을 통해 교통 흐름을 최적화 하는 시스템을 만들 수 있을 것이다
모빌리티와 접근성 향상
- 장애인 노인들과 같이 운전이 어려운 사람들도 자율주행을 통해서 탑승할 수 있다.
환경 친화적 교통 촉진
- 최적의 효율성을 가지고 전기자동차를 사용, 또한 공유 모빌리티등으로 사용되어 차량 수를 줄일 수 있다.
물류 및 배송 서비스 변혁
Smart city 인프라 와의 동기화
제도와 법적 구조 방향
대중들과 함께 신뢰를 쌓으며 나아가기

Reference

A Survey of Deep Learning Techniques for Autonomous Driving
- 2020
Autonomous driving system: A comprehensive survey
- 2023

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

꿈꾸는자취방

티스토리 뷰

Autonomous Driving Overview : 자율주행 분야 기술 리뷰 및 공부

Introduction

History

Levels of Driving Automation

Research Trend

Architecture & System

Layer Architecture

End-to-End architecture

Comparison

Technology

Scene Perception and Localization

Sensor

Object Detection

Semantic Segmentation

Multi-Object Tracking

Localization an Mapping

Motion Planning and Decesion-Making

Trajectory prediction

Decision-making

Simulator & scenario generation

Current Chanllenges and Limitations

Challenges

Future Direction

Reference

티스토리툴바