개발
Action Recognition via Spatiotemporal Feature Learning 분야 개관
로지dev
2021. 8. 4. 20:05
목표
영상 데이터로부터 시공간특징(spatiotemporal features)을 추출하여 동작 패턴을 분류하는 것
예시
영상 토픽 분류
레시피 영상의 자동 자막 생성
기반 기술
- 시공간 특징 추출 기술
- SIFT (Scale-Invariant Feature Transform) : 이미지 크기에 상관 없이 특징 추출이 가능한 알고리즘. 단, 연구자가 직접 추출할 특징을 설계하여야 함
- Unsupervised Learning : 데이터로부터 모델이 알아서 시공간특징을 학습
주요 문제점
- 공간 특징 표현을 어떻게 정의할 것인가
- 시간 정보 표현을 어떻게 정의할 것인가
- 시공간복잡도를 어떻게 줄일 수 있는가
주요 아키텍처
S3D
VideoBERT의 Baseline 모델. 3D Conv layer를 space - temporal seperable하게 두 개로 분리하여 합성곱 연산을 수행하도록 한 네트워크 아키텍처



지금 SOTA와 비교해보면 약 10점 차이

비교적 간단한 구조라 접근성이 좋음
벤치마크 데이터셋
참고자료 :
- ISA 기반 시공간적 학습을 통한 사람의 요리 동작 인식 (http://mediatum.ub.tum.de/doc/1160753/84317.pdf)
- Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification (https://arxiv.org/pdf/1712.04851.pdf)