합성곱 신경망을 통해 이미지가 어떻게 처리되는지 알아보기 전에 이미지가 컴퓨터에 어떻게 저장되는지 부터 알아보자.
8이라는 숫자가 써진 흑백이미지다. (그레이 스케일 이미지라고도 불린다.) 해당 이미지를 더 확대하고 자세히 살펴보면 이미지가 작은 사각형들로 이루어져 있는게 보인다. 이 각각의 작은 사각형들을 픽셀(Pixel)이라고 한다.
보통 이미지를 (높이 x 너비)라는 차원을 가진다 라고 하는데 이는 이미지의 크기를 의미한다. 이미지의 크기는 단순히 높이와 너비에 놓인 픽셀의 수로 위의 예시의 경우 높이에는 총 24개의 픽셀이, 너비에는 총 16개의 픽셀이 사용되어 24 x 16의 크기를 가진다.
가운데 사진을 보자. 각 픽셀은 저렇게 숫자 값으로 표시되며 이런 숫자들을 픽셀 값이라고 한다. 픽셀 값은 픽셀의 강도를 나타내며 0부터 255까지의 값들을 가진다. 이 때 픽셀 값이 0에 가까울수록 더 어두운 음영을 나타내며 255에 가까운 큰 수일 경우 더 밝더나 흰색의 음영을 나타낸다. 24 x 16 = 384 총 384개의 숫자들로 구성된 24 x 16 행렬의 형태로 이 이미지가 컴퓨터에 저장되는 것이다.
흑백 이미지의 경우 저렇게 하나의 행렬 형태로 저장되어, 하나의 채널만을 가진다고 얘기할 수 있다.
그렇다면 칼라이미지의 경우 어떨까?
칼라 이미지는 다양한 색상으로 구성되어 있으며 모든 색상은 적색(Red), 녹색(Green), 청색(Blue) 이렇게 삼원색에서 만들어진다. 따라서 각각의 이미지는 이 세 가지 색상 또는 3개의 채널로 구성되어 있다고 말할 수 있다. 이 칼라 이미지는 3개의 행렬이 중첩된 형태로 컴퓨터에 저장된다고 생각하면 된다. 따라서 해당 칼라 이미지는 채널이 3개인 관계로 6 x 5 x 3 의 크기를 가진다. 위의 첫 예시였던 흑백이미지는 24 x 16 x 1 의 크기를 가지고. (채널을 하나만 가지니)
채널을 간혹 깊이(Depth)라고도 얘기하는데 가급적 채널로 말하는 게 낫다. 이 예시들처럼 2D의 데이터가 아닌 3D의 데이터의 경우 높이와 너비 뿐만 아니라 깊이를 가지게 되니 단어 사용에 헷갈릴수도 있기에....ㅎ
[요약]
- 이미지는 픽셀 값들로 이루어진 행렬 형태로 컴퓨터에 저장된다.
- 각 픽셀 값은 픽셀의 강도를 나타내며, 픽셀 값이 클수록 색상이 더 밝다.
- 칼라 이미지는 3개의 채널을, 흑백 이미지는 하나의 채널만을 가진다.
정리 및 공부한 내용 참고출처: https://www.analyticsvidhya.com/blog/2021/03/grayscale-and-rgb-format-for-storing-images/https://www.youtube.com/@Deeplearningai
이미지 출처: https://www.analyticsvidhya.com/blog/2021/03/grayscale-and-rgb-format-for-storing-images/https://www.youtube.com/@Deeplearningai
'인공지능 > Computer Vision' 카테고리의 다른 글
풀링(Pooling) ft. Max & Average Pooling (0) | 2023.05.16 |
---|---|
합성곱 신경망(Convolution Neural Network) (0) | 2023.05.15 |
RGB 이미지의 합성곱 연산 (0) | 2023.05.15 |
패딩(Padding) (0) | 2023.05.15 |
합성곱 연산(Convolution operation) (1) | 2023.05.14 |