개발

Action Recognition via Spatiotemporal Feature Learning 분야 개관

로지dev 2021. 8. 4. 20:05

목표

영상 데이터로부터 시공간특징(spatiotemporal features)을 추출하여 동작 패턴을 분류하는 것

 

예시

영상 토픽 분류

레시피 영상의 자동 자막 생성

 

기반 기술

  • 시공간 특징 추출 기술
    • SIFT (Scale-Invariant Feature Transform) : 이미지 크기에 상관 없이 특징 추출이 가능한 알고리즘. 단, 연구자가 직접 추출할 특징을 설계하여야 함
    • Unsupervised Learning : 데이터로부터 모델이 알아서 시공간특징을 학습

주요 문제점

  • 공간 특징 표현을 어떻게 정의할 것인가
  • 시간 정보 표현을 어떻게 정의할 것인가
  • 시공간복잡도를 어떻게 줄일 수 있는가

주요 아키텍처

S3D

VideoBERT의 Baseline 모델. 3D Conv layer를 space - temporal seperable하게 두 개로 분리하여 합성곱 연산을 수행하도록 한 네트워크 아키텍처

(c) 그림과 같이 Conv 연산을 분리한 inception 모듈을 이용하였다.
모델 아키텍처
가장 낮은 파라메터 수와 상위권 성능을 획득한 S3D 모델

지금 SOTA와 비교해보면 약 10점 차이

비교적 간단한 구조라 접근성이 좋음

 

벤치마크 데이터셋

Something-Something

HMDB

 

참고자료 : 

- ISA 기반 시공간적 학습을 통한 사람의 요리 동작 인식 (http://mediatum.ub.tum.de/doc/1160753/84317.pdf)

- Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification (https://arxiv.org/pdf/1712.04851.pdf)