DFBETAS1 [회귀 분석] 8. 이상치(Outlier), 영향점(Influential Point) 탐지 with Python 안녕하세요~ 꽁냥이에요! 데이터 분석시 이상치는 관심을 갖고 살펴보아야하는데요. 이상치는 데이터를 만드는 사람의 실수에 의해서 발생할 수도 있고 데이터를 생성하는 시스템에 의하여 발생할 수도 있습니다. 이상치는 회귀 분석에서 양날의 검이라고도 할 수 있는데요. 이상치로 인하여 모형의 해석(회귀 계수의 해석)이 정확하지 않게 될 수 있지만 중요한 정보(시스템의 고장, 새로운 연관성의 발견 등)를 제공하기 때문이지요. 또한 이상치 중에서도 모형 여기서는 회귀계수 값의 변화를 크게 만드는 것이 있고 아닌 것이 있습니다. 이때 이상치 중에서 회귀계수 값의 변화를 크게 만드는 데이터를 영향점(Influential data)이라고 합니다. 영향점이라고 판단되는 데이터는 모형을 크게 변화시키기 때문에 제외시키기도 하.. 2020. 11. 2. 이전 1 다음