Math

    [AI Math][심화] Maximum Likelihood Estimation(MLE)

    MLE의 기본 IDEA 관찰한 데이터를 가장 잘 설명하는 확률분포(모델)의 모수를 구해보자 - 우리가 실험한 결과(관찰치)를 가장 잘 설명해줄 수 있는 가능성이 높은 추정량을 모수의 추정량으로 택하는 방법 1. Estimation (추정) - 데이터셋(모집단)의 특성을 나타내는 모수를 추정 ex) 정규분포 -> 평균, 분산, 베르누이 분포 -> 성공 확률 p - 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로, 근사적으로 확률분포를 추정할 수 밖에 없다. 2. Likelihood (가능도) - 우리가 실험한 결과(관찰치)가 가정한 확률분포에 대응하는 모수의 값으로 설명될 수 있는 가능성을 가지고 추정 \begin{align*} L(\theta;x_{0} = 1) = ..

    [AI Math][심화] Gradient Descent

    단순하게 생각을 하면 쉽다 함수값을 증가하고 싶으면 미분 값을 더하면 된다 증가함수 일때 (x축 오른쪽에 있을 수록 큰 값): 미분값 (양수) + :더하면 x축의 오른쪽으로 이동 -> 증가 감소함수 일때 (x축 오른쪽에 있을 수록 작은 값): 미분값 (음수) + :더하면 x축의 왼쪽으로 이동 -> 증가 함수값을 감소하고 싶으면 미분 값을 빼면 된다 증가함수 일때 (x축 오른쪽에 있을 수록 큰 값): 미분값 (양수) + :더하면 x축의 왼쪽으로 이동 -> 감소 감소함수 일때 (x축 오른쪽에 있을 수록 작은 값): 미분값 (음수) + :더하면 x축의 오른쪽으로 이동 -> 감소 즉, 어떤 모델에 input x 가 들어올 때 그거에 대한 loss가 구해질 때 이 loss를 낮아지게 끔 Weight를 업데이트 하..

    [AI Math]모수 와 (표집분포, 표본분포, 모집단)의 기대값과 분산

    통계적 모델링 적절한 가정 위에서 확률분포를 추정(inference)하는 것 -> 데이터를 모으는 데 한계가 있으므로 근사적으로 확률분포를 추정할 수 밖에 없다 모수적 방법론 (parametric) 1. 특정 확률분포(ex 정규, 베르누이,카테고리...)를 따른 다고 가정한 다음 2. 그 확률분포의 모수(parameter)를 추정하는 방법 * 모수?? 확률분포를 결정하는 애들이 모수(parameter) ex) 정규분포 -> 평균, 분산 * 확률 분포의 종류 ( -> 히스토그램을 보고 결정하기) 베르누이 분포: 데이터가 두개 (0,1) 카테고리 분포: 데이터가 n개 (이산적) 베타 분포: 데이터가 [0,1]사이의 값 감마분포: 데이터가 0 이상의 값 (+로그정규분포) 정규분포: 데이터가 실수 전체의 값을 ..

    [AI Math]Monte Carlo Sampling(몬테카를로 샘플링)

    확률변수 정의하는 event에 따른 결과 값(의역입니다.) 확률변수도 엄연히 "변수​" 이다 ex) 주사위라고 가정할때 1,2,3,4,5,6 등이 event이다. 이때 확률 변수는 "주사위를 한번 던졌을 때 어떤 숫자가 나올 확률"라고 정의 할 수 있다 ​ 이 확률들이 모여서 확률 분포를 만들고 이를 통계에 사용한다 ​ 이산확률변수(discrete) vs 연속확률변수(continuous) 이 두개가 구하는 방법이 다름 하지만 절대 원래의 데이터의 종류를 가지고 연속이다 이산이다 판단하면 안된다. 모델링하는 방법에 따라 다르다 ​ 1. 이산확률변수 다음과 같이 이산확률변수에 대한 확률은 확률 질량함수 라 한다 확률질량함수 = 사건이 발생할 경우의수 / 전체 경우의 수 라고 생각할 수 있다 ​ 2. 연속확률..

    [AI Math]L1- norm, L2-norm 에 관하여

    norm : 원점에서 부터 거리. ​ L1-norm 과 L2-norm 은 굉장히 보기엔 어렵게 느껴지지만 고등학교 수준에서 해결이 가능하다 ​ (배경지식) 원 : 한 점에서 같은 거리에 있는 점들의 집합 ​ ​ 1. L1 노름 ​ L1 노름 이란 1차원 상에서의 원점에서 거리라고 해석할 수 있다 (의역이지만 이해를 위해 사용) ​ 즉, 물리 상으로 표현 한다면 이동거리라 말할 수 있다 ​ 그러므로 L1-노름을 구하는 방법은 각 성분의 변화량의 절대값을 모두 더하는 것이다. ​ ex) 3차원 벡터 a = (4,-5,6) 라 가정을 하자 벡터 a의 L1-노름을 구하는 방법은 각각의 축으로 얼마나 이동을 했는지를 구하는 것이므로 4 + 5 + 6 = 15라 할 수 있다 ​ 2. L2 노름 L2 노름 이란 2차..