인공지능 기술을 활용한 영상 보안 기술 소개 – 2편

인공지능 기술을 활용한 영상 보안 기술 소개 – 2편

ICBM(사물인터넷(IoT), 클라우드(Cloud), 빅데이터(Big Data), 모바일(Mobile)) 등 첨단 정보 통신 기술이 융합된 4차 산업혁명 시대가 본격적으로 도래하고, 최근 수년 사이에 인공지능 기술이 급속도로 발전하면서, 각종 관련 산업도 매우 빠른 속도로 변화하고 있습니다.

다양한 정보통신기술이 복합적으로 활용되는 보안산업 분야도 4차 산업혁명 시대에 발맞추어 빠르게 발전하고 있으며, 특히 최근 날로 지능화되고 있는 범죄에 의한 사회 불안, 1인 가구 증대 등 사회구조의 변화, 보안에 대한 인식 변화로 인한 사무실, 공장, 공공시설 등에 대한 무인 방범 및 보안시설의 확대로 보안산업 시장은 지속적으로 성장하고 있습니다. 지난 1편에 이어서 영상 보안 분야에서 가장 활발히 연구되고 있는 인공지능을 활용한 영상 보안 기술에 대해 다뤄보겠습니다. 특히 인공지능 CCTV 기술 중 특정인의 동선을 빠르게 파악하기 위한 사람 재식별 기술과 영상 전체를 재생할 필요 없이 요청한 객체의 움직임만 파악할 수 있는 비디오 요약 기술에 대해 알아보겠습니다.

그림 1 CCTV 영상 활용 기술(사람 재식별) 예시 이미지 (출처 : 한겨레 2020.11.30. 인공지능의 예측 기술은 범죄 발생을 막아줄 수 있을까)

인공지능 CCTV 기술 – 2부

사람 재식별 (Person Re-identification) 기술

최근 CCTV를 관제하는 통합 영상 관제 시스템에서 자동으로 보행자 검출 및 동선 파악을 수행하는 기술의 중요성이 점점 커지고 있습니다. 특히 특정인의 동선 추적을 위한 필수 기술인 재식별 기술은 다수의 카메라 입력 영상으로부터 최대한 비슷한 사람을 찾고 이를 통해 특정인의 동선을 유추하는 기술입니다.

그림 2 사람 재식별 기술 개요 예시 이미지 (출처: 딥러닝 기반 다중 CCTV 영상내 사람 탐지 및 이동경로 추적 기술)

다양한 장애 요인(객체의 포즈 변화, 조명 변화, 가림, 카메라 해상도, 일관되지 않는 카메라 시점)에 강인한 재식별 알고리즘을 위해 보행자 입력 영상에서 특징을 추출하는 많은 기법이 제안되고 있습니다.

특징 추출 기법

1.전역 특징(Global Feature) 추출 기법
검출된 보행자 영역 전체에서 특징을 추출하는 기법입니다.

 

2.지역 특징(Local Feature) 추출 기법
검출된 보행자 영역을 균등하게 나누어 특징을 추출하거나 사람의 일부 신체 영역에서만 특징을 추출하는 기법입니다.

 

3.특징 결합 기법
비디오 내 연속된 사람의 영역 정보를 이용하여 특징을 구성하는 기법입니다.

그림 3 특징 추출 기법 예시 이미지 (출처: Deep Learning for Person Re-identification: A Survey and Outlook)

4.속성(Attribute) 기반 특징 추출기법
최근에는 포즈, 조명 및 카메라 시점에 변하지 않는 보행자 속성정보(옷 형태, 색상 및 착용 아이템 등)를 이용한 재식별 특징 기법도 연구되고 있습니다.

그림 4 보행자 속성 정보 기반 특징 추출 예시 이미지 (출처 : CCTV 동영상에서 보행자 검색을 위한 패션 어텐션 기반 보행자 CNN 특징 추출 방법)

5.신체 부위(Body-Part) 기반 추출기법
복잡한 배경에 강인한 성능을 위해 보행자의 특정 부위 특징에 가중치를 부여하여 추출하는 기법입니다.

그림 5 신체부위 기반 추출기법 예시 이미지 (출처: 지능형 CCTV 시스템을 위한 보행자 검출과 재식별 기술)

손실함수(Loss Function) 이용

1.Identification Loss
손실 함수를 영상 분류의 문제로 접근하여 설계하고 각각의 ID가 잘 분류될 수 있도록 학습하는 기법입니다.

 

2.Verification Loss
손실 함수를 영상 인식 문제로 접근하여 비교하는 두 ID가 같은 ID 인지 판단하도록 학습시키는 구조입니다.

 

3.Triple Loss
손실 함수를 영상 검색의 문제로 접근하여 같은 ID 쌍과 다른 ID를 같이 입력하여 같은 ID 간의 특징은 점점 비슷하게 다른 ID 특징은 점점 달라지도록 하여 학습하는 기법입니다.

그림 6 손실함수 비교 예시 이미지 (출처: Deep Learning for Person Re-identification: A Survey and Outlook)

비디오 요약 (Video Synopsis) 기술

효율적으로 CCTV 영상을 모니터링 및 분석하기 위하여 영상에 등장하는 물체의 행동 및 움직임을 최대한 보존하면서 영상의 길이를 줄이는 비디오 요약 기술 연구가 현재 활발히 진행 중에 있습니다.

비디오 요약 기술은 영상 내 존재하는 객체와 이벤트를 감지한 후, 사용자가 요청한 객체의 움직임을 객체 간의 충동 없이 통합 및 표출함으로써 전체 영상을 재생하지 않고도 비디오 내의 행동을 파악할 수 있는 기술입니다.

▶ 영상 초록(Video Abstraction)
긴 시간의 원본 영상을 요약된 영상으로 재구성하기 위한 메커니즘을 영상 초록이라 합니다.

 

1.영상 축약(Video Summarization)
영상 축약 기술이란 특정 프레임을 선택 및 추출하여 일련의 순서로 나열하는 것입니다. 일반적으로 영상 축약은 시각적 정보만 사용하고 원본 영상 내 오디오 및 텍스트 정보를처리하지 않기 때문에 빠르게 요약 영상을 생성할 수 있습니다.

 

2.영상 스키밍(Video Skimming)
영상 스키밍은 원본 영상에서 요약하고자 하는 구간을 선택하여 요약 영상을 생성합니다. 비록 영상 스키밍은 절차가 복잡하여 요약 영상을 생성하는데 다소 시간이 소요되지만, 오디오, 텍스트 등의 정보를 포함합니다.

그림 7 영상 축양과 영상 스키밍 비교 예시 이미지 (출처: 공공 인프라 환경에서의 영상 시놉시스 기반 보안 프레임워크)

3.영상 시놉시스(Video Synopsis)
영상 시놉시스는 객체 또는 객체 활동 기반의 영상 압축 기법으로 가능한 짧은 시간 동안 공통된 배경에서 최대한 많은 객체의 활동을 동시에 출력하는 것을 목표로 하는 요약 영상 생성 기술입니다.

일반적으로 영상 시놉시스를 위한 몇 가지 정량적 표준이 존재합니다.

첫 번째, 생성된 요약 영상에서는 중복된 시공간 속에서 객체는 최대의 활동을 보여주어야 합니다. 두 번째, 생성된 요약 영상에서의 객체 충돌은 피해야 합니다. 마지막으로 생성된 요약 영상은 객체의 시간적, 공간적 일관성을 유지해야 합니다.

영상 시놉시스 기술은 앞서 언급된 영상 축약 및 스키밍 기술과는 다르게 객체를 대상으로 요약 영상을 생성하기 때문에 수집된 영상의 시간이 다를지라도 요약된 영상에서는 객체에 대한 동시 프레젠테이션이 가능합니다. 또한, 영상 시놉시스는 상황에 따라 앞서 언급된 두 기술보다 짧은 요약 영상을 생성할 수 있습니다.

그림 8 영상 시놉시스 개념 예시 이미지 (출처: 공공 인프라 환경에서의 영상 시놉시스 기반 보안 프레임워크)

비디오 요약에서 사용되는 객체 추적(Object Tracking) 기술

비디오 요약에서 사용되는 객체 추적(Object Tracking) 기술은 각 프레임에서 검출된 객체에 대해 크기, 위치, 색 등 정보 간의 특징 유사도를 이용하고 객체의 위치 변화를 추적하여 각 객체에 대한 시공간 정보를 가지는 튜브를 생성하는 기술입니다.

1.칼만필터 (Kalman Filter)
과거의 정보와 새로운 측정값을 사용하여 측정값에 포함된 잡음을 제거해 최적의 값을 추정하는 데 사용하는 대표 알고리즘 중 하나입니다. 그러나 기존의 칼만필터 기반 다중 객체 추적 방법은 조명 변화, 급격한 움직임, 흐려짐, 복잡한 배경, 객체 형태의 변화, 가려짐 등의 환경 변화로 인한 객체 간 ID Switch가 많이 발생하거나 튜브가 균열이 되는 문제점이 존재하였습니다.

그림 9 칼만필터 기반 방식 예시 이미지 (출처: CPU 환경에서의 실시간 동작을 위한 딥러닝 기반 다중 객체 추적 시스템)

2.Deep Feature 기반 다중 객체 추적연구
기존 칼만필터 기반 방식의 문제점을 해결하고 다양한 환경 변화에 강인한 Deep Feature를 활용하여 객체의 구분력을 높여 추적에 활용하는 연구입니다.

그림 10 Deep Feature 기반 다중 객체 추적연구 예시 이미지 (출처: CPU 환경에서의 실시간 동작을 위한 딥러닝 기반 다중 객체 추적 시스템)

비디오 요약 방식

입력된 영상의 모든 객체에 대한 검출 및 추적이 완료되고 해당 튜브가 저장되면 객체를 재배열하여 비디오 요약 영상을 생성할 수 있습니다. 각기 다른 시간대에 등장하는 객체들이 한 프레임의 영상으로 요약되기 때문에 최대한 객체 간의 충돌이 일어나지 않고 최단 시간의 요약된 비디오를 생성하는 것이 핵심입니다.

1.그룹핑(Grouping) 방식
모든 튜브의 등장 시간을 시간 축으로 재배열한 후 배경 영상에 합성할 때, 튜브의 시공간 정보를 분석하여 겹침이 존재하는 튜브들을 하나의 튜브로 묶어 객체 검출 및 추적의 오류가 일부 있더라도 최대한 원본의 움직임을 보존하도록 하는 기술입니다.

2.사용자 질의(Query) 방식
객체 튜브의 속성을 추출하여 미리 저장해두고 사용자가 질의한 객체에 대한 요약 비디오를 생성하는 방식입니다. 모든 객체의 튜브에 대하여 요약하는 방식과 다르게 이 방식에서는 비디오 요약에 사용자의 요구가 반영될 수 있도록 튜브에 대한 다양한 정보 추출이 사전에 선행되어야 합니다.

최근에는 딥러닝 기술의 발달로 인하여 영상 내 객체의 다양한 속성을 추출할 수 있는 기술이 등장하고 있습니다. 이에 따라 더욱 다양한 사용자의 요구를 반영하는 비디오 요약 영상을 생성할 수 있습니다.

3.새로운 방식의 등장
객체의 단일 속성 정보뿐만 아니라 사람과 객체, 사람과 사람 사이의 상호작용을 분석하여 특정 행동(이상행동 포함)을 하는 대상만을 요약하는 연구들의 최근 제안되고 있습니다. 또한 객체의 이동정보를 파악하여 다중 카메라 환경에서 동작 가능한 비디오 요약 기술도 나타나고 있습니다.

마치며

범죄 예방, 재난 재해 감시 등 안전과 보호에 관한 관심이 지속적으로 증가함에 따라 CCTV 기반의 영상 보안 기술에 관한 관심이 높아지고 있습니다. 또 여러 요소 기술의 성능적 한계를 개선하기 위해 지속적인 연구가 앞으로도 활발히 진행될 것으로 보입니다. 이를 통해 인공지능 영상 보안 기술은 안전한 사회로 다가가는데 큰 역할을 할 수 있을 것입니다.

참고자료

Mang Ye, Deep Learning for Person Re-identification: A Survey and Outlook, 2020

김영갑, 공공 인프라 환경에서의 영상 시놉시스 기반 보안 프레임워크, 2021

최희승, 인공지능 기술을 활용한 영상 보안 기술 소개, 2021

김경훈, CPU 환경에서의 실시간 동작을 위한 딥러닝 기반 다중 객체 추적시스템, 2020

김재섭, 한겨레, 인공지능의 예측 기술은 범죄 발생을 막아줄 수 있을까, 2020

임보영, CCTV 동영상에서 보행자 검색을 위한 패션 어텐션 기반 보행자 CNN 특징 추출 방법, 2019

이상훈, 지능형 CCTV 시스템을 위한 보행자 검출과 재식별 기술, 2017

한국전자통신연구원, 딥러닝 기반 다중 CCTV 영상내 사람 탐지 및 이동경로 추적 기술

Related Posts