2016년 3월 18일 금요일

주요 알고리즘 정리

자주 사용하는 알고리즘에 대한 정의 및 개인적인 포인트를 메모한다.

심층 신경망(Deep Neural Network, DNN)
입력 계층(input layer)과 출력 계층(output layer) 사이에 복수개의 은닉 계층(hidden layer)들로 이뤄진 인공신경망(Artificial Neural Network, ANN)이다.[17][18] 심층 신경망은 일반적인 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링할 수 있다. 예를 들어, 사물 식별 모델을 위한 심층 신경망 구조에서는 각 객체가 이미지 기본 요소들의 계층적 구성으로 표현될 수 있다.[19] 이때, 추가 계층들은 점진적으로 모여진 하위 계층들의 특징들을 규합시킬 수 있다. 심층 신경망의 이러한 특징은, 비슷하게 수행된 인공신경망에 비해 더 적은 수의 유닛(unit, node)들 만으로도 복잡한 데이터를 모델링할 수 있게 해준다.

딥러닝 (Deep Learning)
사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야이다.
과학습(OverFitting)은 항상 주의 해야할 문제이다.
하드웨어 (GPU)와 분산 처리 기술의 발전으로 다시 주목 받고 있다.
컴퓨터 비전과 같은 특정 분야에서는 압도적인 성과를 보인다.

잠재변수(Latent Variable)
직접적으로 관찰되거나 측정이 되지 않는 변수를 의미한다.
딥러닝(deep learning)의 핵심 요소이다.

이미지 처리
convolution nxm
필터 효과를 만들어낸다.
subsampling nxm
이미지 분석에서는 일반적으로 Max 값을 추출한다. (max-pooling)

인공신경망 (artificial neural network)
생물학의 신경망에서 영감을 얻은 통계학적 알고리즘이다.
시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가르킨다.

서포트 벡터 머신(support vector machine, SVM)
기계 학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용한다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다. SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있다. 비선형 분류를 하기 위해서 주어진 데이터를 고차원 특징 공간으로 사상하는 작업이 필요한데, 이를 효율적으로 하기 위해 커널 트릭을 사용하기도 한다.
**
최대 마진 경계를 찾는다.
비선형의 경우 새로운 차원 공간으로의 사상작업이 필요하다.

나이브 베이지안 (Naive Bayes, NB)
기계 학습 (Machine Learning) 분야에서, 나이브 베이즈 분류 (Naïve Bayes Classification)는 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종으로 1950 년대 이후 광범위하게 연구되고 있다.
**
올바른 클래스가 다른 클래스 보다 확률이 높을 경우 선택된다.
조건부 확률의 독립성을 가정한 알고리즘이다.
실제 확률로 볼 수는 없지만 분류에 있어 매우 효율적이다.
자연어 처리를 비롯한 많은 영역에서 사용되고 있다.

회귀분석(回歸分析, 영어: regression analysis)
관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 상관관계를 나타내는 선형 관계식을 구하는 기법 및 이렇게 얻은 모형의 적합도를 측정하는 분석 방법이다
회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용될 수 있다.
**
표본에서 모집단 모수를 추정하기 위한 대표적인 방법이다.
최소제곱법(최소자승법)는 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법이다.
최대우도법(최대가능도방법)은 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법이다

오차와 잔차
모수에서는 실제 값과 추정 값과의 차이를 오차라 하고,
표본에서는 통계량의 개념을 갖는 잔차라는 단어를 사용한다.

결정 트리 학습법(decision tree learning)
어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다
신경말 알고리즘이 여러 변수를 동시에 고려하지만 결정트리는 한개의 변수를 선택한다.
**
엔트로피 계수를 통해 분기의 우선 순위를 결정한다.
지니 불순도가 0이 될때 까지 분기한다.

엔트로피(독일어: Entropie)
열역학적 계의 유용하지 않은 (일로 변환할 수 없는) 에너지의 흐름을 설명할 때 이용되는 상태 함수다. 통계역학적으로, 주어진 거시적 상태에 대응하는 미시적 상태의 수의 로그로 생각할 수 있다. 엔트로피는 일반적으로 보존되지 않고, 열역학 제2법칙에 따라 시간에 따라 증가한다.

로렌츠 곡선
경제학에서 로렌츠 곡선은 하위 x%의 가구가 y%의 소득이 분배될 때의 확률 분포를 누적 분포 함수의 그래프로 나타낸 것이다. 로렌츠 곡선은 소득 분배 정도를 나타낼 때 주로 이용된다

지니 계수(Gini coefficient, 이탈리아어: coefficiente di Gini)
소득 격차를 계수화 한 것이다. 서로 다른 로렌츠 곡선들이 교차하는 경우 비교하기가 곤란하다는 로렌츠 곡선의 단점을 보완할 수 있다. 지니 계수는 소득 분배의 불평등함 외에도, 부의 편중이나 에너지 소비에 있어서의 불평등함에도 응용된다.
인구의 누적비율과 소득의 누적 점유율 사이의 상관관계를 나타내는 로렌츠 곡선은 소득분배가 완전히 평등하다면 기울기가 1인 대각선의 형태가 될 것이다.

로지스틱 회귀(영어: logistic regression)
D.R.Cox가 1958년에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다.
흔히 로지스틱 회귀는 종속변수가 이항형 문제(즉, 유효한 범주의 개수가 두개인 경우)를 지칭할 때 사용된다.
**
플롯으로 의미 들여다 보기
X = np.arange(-20,20)
e = 2.71828182846 # 근사치
logistic = lambda x: e ** x / ( 1 + e ** x)

with xkcd():
    title('logistic function')
    plot(X,[ logistic(x) for x in X ])
    ylim([-0.1,1.1])
    #grid()
    hlines(xmin=-20,xmax=20,y=0.5,linestyle='dashed')
    vlines(ymin=0,ymax=1,x=-10,lw=167,alpha=.3,color='blue')
    vlines(ymin=0,ymax=1,x=10,lw=167,alpha=.3,color='red')
    text(s='judged 0',x=-15,y=.2,fontsize=14)
    text(s='judged 1',x=10,y=1-.2,fontsize=14)

0 개의 댓글:

댓글 쓰기