2024. 5. 23. 23:35ㆍ카테고리 없음
깊이 기반, MLP 기반, 및 트랜스포머 기반 접근 방식. 깊이 기반 방법의 경우, 2D 특징을 명시적 또는 암시적인 깊이 추정을 통해 3D 공간으로 올리는 것이 주요 솔루션
픽셀을 직접적으로 BEV로 매핑하는 대신, 각 픽셀의 깊이 분포를 계산하여 2D 특징을 이 분포로 3D로 올리고, 이후 3D에서 차원 축소를 통해 BEV 표현을 얻음
n | 설명 |
---|---|
방법 1 | 하나의 간단한 접근 방식은 변분 인코더-디코더 또는 MLP를 사용하여 PV 특징을 BEV로 투사하는 것 |
방법 2 | 트랜스포머 기반 접근 방식은 상향식 방식으로 BEV 쿼리를 직접 구성하고 교차 주의 메커니즘을 사용하여 원근 이미지에서 해당 특징을 찾음 |
BEV-Perception? -> Background
입력 이미지 시퀀스 𝐼∈𝑅^(𝑁×𝑉×𝐻×𝑊×3)를 주어진 상황에서 조감도(BEV) 특징으로 변환하고, 물체의 3D 경계 상자 검출이나 주변 환경의 의미적 지도를 생성하는 작업을 의미함. 여기서 𝑁, 𝑉, 𝐻, 𝑊는 각각 프레임 수, 뷰 수, 높이, 너비를 나타냄
Depth-Based | 2D 특징을 3D 공간으로 변환하는 방식으로, 픽셀마다 카메라에서 시작해 실제 물체와 교차하는 광선을 사용함 |
MLP-Based | MLP을 사용해 PV 특징을 BEV로 변환함 |
Transformer-Based | BEV 쿼리를 직접 생성하고, 크로스 어텐션 메커니즘을 사용해 관련 특징을 추출함 |
각 데이터 셋들 별 평가 방식
Dataset | |
KITTI | - Average Precision (AP): KITTI는 3D 공간에서의 교차 영역 (IoU)을 계산하여 AP 지표를 수정 - BEV AP: BEV에서는 객체의 높이가 덜 중요하므로 KITTI는 3D 공간 대신 지면에서의 IoU를 계산하여 BEV AP를 제공 - Average Orientation Similarity (AOS): 이 지표는 방향 추정의 품질을 평가, 여기서 𝑐(𝑟)는 정규화된 코사인 유사도 변형 : AOS = ![]() |
nuScenes | - Average Precision (AP): 전통적인 AP 계산과 달리, nuScenes는 IoU 대신 지면에서의 2D 중심 거리와 거리 임계값 d (예: 2미터)를 사용하여 예측값과 실제값을 매칭함 - Mean Average Precision (mAP): 모든 매칭 임계값 𝐷={0.5,1,2,4} 미터와 모든 클래스 C에 대해 계산 ![]() - True Positive Metrics (TP metrics): 평균 번역 오류, 평균 스케일 오류, 평균 방향 오류, 평균 속도 오류, 평균 속성 오류가 포함 - NuScenes Detection Score (NDS): mAP와 다양한 TP 지표를 결합하여 총체적인 성능 |
waymo | - APH (Average Precision weighted by Heading): Waymo Open Dataset의 주된 평가 지표로, AP(평균 정확도) 계산 시 방향 정보(heading)를 고려 - LET-3D-AP (Longitudinal Error Tolerant 3D Average Precision): 깊이 추정 오차에 대해 더 관대한 새로운 지표로, 횡방향 오류가 작지만 종방향 오류가 상대적으로 큰 예측을 보상 - LET-IoU (Longitudinal Error Tolerant Intersection-over-Union): 종방향 오류를 보상하여 IoU를 계산하는 방법. 실제 중심을 예측된 중심의 시선 방향으로 정렬하여 LET-IoU를 계산 - LET-3D-APL (Longitudinal Affinity Weighted LET-3D-AP): 지표로, 어떠한 실제 객체와도 겹치지 않는 예측에 패널티를 부과 |
3. Method - Homography
Homography 기반의 방법은 Vision-Centric BEV 인식에서 기본이 되는 기법
IPM | PV 이미지를 BEV 이미지로 변환하는 전통적인 방법. 이 기법은 두 뷰 간의 기하학적 관계를 활용하며, 변환될 점들이 수평면에 놓여 있다고 가정. 이 변환은 카메라의 내부 및 외부 매개변수를 사용하여 계산된 호모그래피 행렬을 통해 수행 |
호모그래피 행렬 | H=K[R∣t] 1. 이미지 점 선택: 변환하고자 하는 PV 이미지에서 네 개의 대응 점을 선택 2. 행렬 계산: 이 대응 점들을 사용하여 호모그래피 행렬을 계산 3. 좌표 변환: 호모그래피 행렬을 적용하여 PV 이미지의 모든 점들을 BEV 이미지의 대응 점들로 변환 한계점 평평한 지면 가정: 이 방법은 모든 점들이 동일한 수평면에 있다고 가정하기 때문에, 실제 3D 환경에서의 높이 차이를 반영하지 못함 복잡한 환경에서의 한계: 복잡한 3D 구조나 다양한 높이를 가지는 객체들이 있는 실제 주행 환경에서는 변환 후 왜곡이나 인식 오류가 발생할 수 있음 |
4. Method - DEPTH BASED PV TO BEV
Depth 기반의 PV (Perspective View)에서 BEV (Bird's Eye View)로의 변환은 깊이 정보를 이용하여 2D 픽셀이나 특징을 3D 공간으로 올린 후 BEV 표현을 얻는 방법. IPM 방법의 한계를 극복하기 위해 개발. 기존 IPM 방법은 모든 점이 지면 평면에 있다고 가정하여 높이 정보를 반영하지 못함
포인트 기반 변환 | - Pseudo-LiDAR: 깊이 맵을 Pseudo-LiDAR 포인트로 변환하고, 이를 최신 LiDAR 기반 3D 감지기로 입력 - Pseudo-LiDAR++: 스테레오 깊이 예측 네트워크와 손실 함수를 사용하여 깊이 정확도를 개선 - AM3D: RGB 특징을 보완적으로 사용하여 Pseudo-Point 클라우드를 증강 - PatchNet: 깊이 맵과 3D 좌표 간의 차이를 분석하고, 3D 좌표를 추가 입력 데이터 채널로 통합하여 성능을 향상 |
복셀 기반 변환 | 3D 공간을 불연속적인 복셀로 나누어 특징 변환을 수행 |
Depth Supervision (OFT) | 정확한 깊이 분포는 PV 특징을 BEV로 변환할 때 중요한 단서를 제공 |
6 TRANSFORMER BASED PV TO BEV
Transformer 기반 접근법은 PV에서 BEV로 변환하는 방법 중 하나로, 주로 교차 주의 메커니즘을 사용함. 이 방법은 MLP 기반 방식과는 몇 가지 주요 차이
6.2 Dense Query based Methods
각 쿼리를 3D 공간 또는 BEV 공간의 공간적 위치에 미리 할당하는 방식.
쿼리의 수는 보통 래스터화된 공간의 공간 해상도에 의해 결정되며, 이는 희소 쿼리 기반 방법의 쿼리 수보다 일반적으로 더 많음
밀집 BEV 표현은 밀집 쿼리와 이미지 특징 간의 상호작용을 통해 다중 하위 작업(예: 3D 탐지, 세분화, 모션 예측)을 수행함으로써 달성
Tesla | Tesla는 BEV 공간에서 위치 인코딩과 컨텍스트 요약을 사용하여 밀집 BEV 쿼리를 생성한 다음, 쿼리와 다중 뷰 이미지 특징 간의 교차 주의를 통해 뷰 변환을 수행함. 기본 교차 주의는 카메라 매개변수를 고려하지 않고 BEV 쿼리와 이미지 특징 간에 수행 |
CVT | CVT는 카메라 내부 및 외부 보정으로부터 파생된 위치 임베딩을 이미지 특징에 장착하여 기하학적 추론을 촉진하는 카메라 인식 교차 주의 모듈. 이는 각 Transformer 디코더 레이어에서 주의 연산이 많은 메모리 복잡성을 필요로 하기 때문에 이미지 해상도와 BEV 해상도를 제한하여 메모리 소비를 줄여야 하는 경우가 많음 |
Deformable Attention | Deformable Attention은 Deformable Convolution의 희소 공간 샘플링과 Attention의 관계 모델링 기능을 결합하여, 희소 위치에만 주의를 기울여 기본 Attention의 메모리 소비를 현저히 줄. 이 방법은 BEVSegFormer의 BEV 세분화와 PersFormer의 3D 차선 탐지에 채택됨 |
BEVFormer 및 BEVFormerV2 | BEVFormer는 BEV 평면에 위치한 밀집 쿼리와 다중 뷰 이미지 특징 간의 상호작용을 위해 Deformable Attention을 채택 역사적인 BEV 쿼리 세트를 설계하고 쿼리와 역사적인 쿼리 간의 Deformable Attention을 통해 시간적 신호를 활용 일반적인 2D 이미지 백본을 BEV 모델에 적응시키기 위해 퍼스펙티브 3D 탐지 헤드를 도입 |
Ego3RT | Ego3RT는 밀집 쿼리를 극좌표 BEV 그리드에 배치하고 Deformable Attention을 사용하여 쿼리와 다중 뷰 이미지 특징이 상호작용하도록 함 극좌표 BEV 특징은 그리드 샘플링을 통해 직교 좌표 특징으로 변환됨 BEVSegFormer와 BEVFormer는 카메라 매개변수와 쿼리의 사전 정의된 3D 위치를 활용하여 특징 샘플링을 위해 2D 참조 포인트를 계산 |