이전 포스트에서 픽셀 이미지의 평균을 통해 대략적인 데이터들을 어느 정도 구분해보았다. 이번 포스트에서는 K-MEANS 클러스터링으로 분류해볼 것이다. K-MEANS 를 안다고 가정하에 포스트를 작성 scikit-learn 으로 아~~~주 간단하게 끝날 것이당당 🥕🥕 동일하게 과일 사진을 불러보자 !wget https://bit.ly/fruits_300 -O fruits_300.npy import numpy as np fruits = np.load('fruits_300.npy') fruits_2d = fruits.reshape(-1, 100*100) 또 300장의 사진을 1자로 펴보자 print(fruits.shape) > (300, 100, 100) print(fruits_2d.shape) > (300..
비지도학습의 대표적인 기법에는 클러스터링이 있다. 학부 및 대학원 수업을 통해 클러스터링은 쉽게 말해서 무언가를 예측하는 것이 아닌 데이터 분포를 통해 그룹핑한다고 생각하면 쉽다. 클러스터링에 대해서는 따로 다루도록 하겠다...🙏👋 먼저 Open 데이터인 fruites_300 이라는 데이터를 불러보자 💁♂️ !wget https://bit.ly/fruits_300 -O fruits_300.npy import numpy as np import matplotlib.pyplot as plt fruits = np.load('fruits_300.npy') 300장의 사진이 100 * 100 의 픽셀로 이뤄어져 있다. 첫 번째 이미지의 첫 행의 모든 열의 데이터는 다음과 같다 중간에 데이터가 유독 높은 곳이 있는..
나무가지가 뻗어나가는 것처럼 데이터를 분류하는 ML 기법 스무고개처럼 소거하는 느낌으로 최대한 동일한 성질의 집단을 나누는 것으로 이해함 Decision Tree의 과정 빈 Tree에서 시작 특정 feature를 기준으로 데이터를 각각 분류 집단으로 나눈다. 만약, 더 이상 feature 기준으로 나눌 분류 집단이 없으면 끝 ! (leaf node) 나눌 기준이 있다면 2번의 과정을 계속 실행한다. Entropy 확률 변수의 불확실성을 수치로 나타낸 것이다. 또는 정보량의 기대값이라고 생각할 수 있다. 엔트로피가 0인 경우, 해당 분류 집단에서 더이상 분류할 필요가 없고 엔트로피가 1인 경우, 해당 분류 집단의 분류할 게 넘쳐난다. 즉, 엔트로피가 낮을수록 잘 분류되었다는 의미로 해석됨. Decision..