본문 바로가기
Computer Vision/Segmentation

RLE (Run-Length-Encoding), Mask R-CNN

by 담유 2020. 4. 17.

RLE란?

매우 간단한 비손실 압축 방법으로 데이터에서 같은 값이 연속해서 나타나는 것을 그 개수와 반복되는 값만으로 표현하는 방법이다. 이 방법은 아이콘 등의 간단한 이미지와 같이 연속된 값이 많이 있는 데이터에 효과적이다. run length encoding 은 만화나 애니메이션 등과 같이 배경의 변화가 없는 영상에 적합한 방식이다. 

 

 

Run Length Encoding

 

Mask R-CNN에서 RLE

원문 발췌:

https://cs230.stanford.edu/projects_spring_2018/reports/8291238.pdf

 

Binary Masks, RLE Byte Encoding and Bounding Boxes : 픽셀 값을 부울 1 또는 0으로 임계 값을 지정하여 semantic 픽셀 맵에서 생성되고 instance number는 각 mask instance에 추가된다. 

 

여기서 사용되는 데이터셋(Stanford 2D-3D Dataset)에서, 각 이미지는 하나의 객체 클래스를 가지지만 그 객체 클래스에서 여러 인스턴스를 가진다. binary masks를 만든 후, 한 이미지에서 인스턴스 마스크들은 함께 쌓이고 byte string처럼 RLE 방법을 사용한다.

 

마지막으로, ground truth Bbox들은 masks를 둘러싸는 직사각형 좌표를 사용하는 마스크로부터 생성된다.

 

 

 

'Computer Vision > Segmentation' 카테고리의 다른 글

Embedding Layers  (0) 2020.04.26

댓글