[책] 데이터 과학을 위한 통계

데이터

[책] 데이터 과학을 위한 통계

임우주 2021. 6. 26. 21:04

극단값

- 로버스트 : 극단값들에 민감하지 않다는 것을 의미한다. (유의어 : 저항성이 있다 resistant)

- 절사평균 : 극단값의 영향을 제거한 평균

표본추출

- 다양한 데이테를 효과적으로 다루고 데이터 편향을 최소화하기 위한 방법으로 쵸본추출의 필요성이 더 커지고 있다.

- 방법 ex. 복원추출, 비복원추출, 랜덤표본추출, 층화표본추출, 단순랜덤표본...

부트스트랩

- 통계량이나 모델 파라미터(모수)의 표본분포를 추정하는쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라 하며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다.

- 개념적으로, 부트스트랩은 원래 표본을 수천, 수백만 번 복제하는 것이라고 생각할 수 있다. 관찰된 데이터로부터 복원추출하는 방법이기 때문이다.

- 여러 부트스트랩 샘플을 가지고 트리를 여러 개 만든 다음 각 트리에서 나온 예측값을 평균내는 프로세스를 '배깅'이라 한다.

- 부트스트랩은 표본크기가 작은 것을 보완하기 위한 것이 아니고, 집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다.

- 부트스트랩은 표본추정에서 잠재적 오차를 반별할 때 유용한 모든 문제에 적용 가능한 방법이다.

정규분포

- 대부분의 데이터는 정규분포를 따르지 않는다.

- 표준화(정규화)하다 (standardize) : 평균을 빼고 표준편차로 나눈다.

- z 점수 : 개별 데이터 포인트를 정규화한 결과 (정규분포를 z분포라고 함)

- 표준정규분포 standard normal distribution : 평균 = 0, 표준편차 = 1 인 정규분포

t분포

- t분포는 정규분포와 생김새는 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다.

- 더 큰 모집단에서 추출한 표본평균의 포본분포는 무엇인가에 대한 대답이기도 하다.

- 정규분포와 다르게, n-1 자유도를 갖는다.

- 포본통계량의 상태를 묘사할 때 t분포의 정확도는 표본에 대한 통계량의 분포가 정규분포를 따른다는 조건을 필요로한다. 원래 모집단이 정규분포를 따르지 않을 때조차도, 표본통계랑은 보통 정규분포를 따르는 것으로 나타났다.(t분포가 널리 적용되는 이유). 이러한 현상을 중심극한정리라고 부른다.

- 데이터 과학자가 t분포와 중심극한정리에 대해 알아야 할 것은 무엇일까? 실은 별로 없다. 이러한 분포는 고전적인 통계적 추론에 사용되기는 하지만, 데이터 과학이 주로 추구하는 목적과는 조금 거리가 있다. 데이터 과학자에게는 불확실성과 변동성을 이해하고 정량화하는 것이 중요하다. 이러한 목적을 위해서라면, 경험적 부트스트랩 표본추출을 통해서도 표본 오차에 대한 대부분의 질문에 답을 얻을 수 있다. 하지만 데이터 과학자들은 R과 같은 통계 소프트웨어 혹은 AB테스트나 회귀분석 같은 통계 절차를 통해 나온 t통계량을 매일 만나게 될 테니 알아두면 도움이 된다.

이항분포

- 각 시행마다 그 성공 확률(p)이 정해져 있을 때, 주어진 시행 횟수(n) 중에서 성공한 횟수(x)의 도수분포를 의미한다. x, n, p값에 따라 다양한 이항분포들이 있다. 이항분포로 답하고자 하는 것은 다음과 같은 질문이다. "한 번의 클릭이 판매로 이어질 확률이 0.02일 때, 200회 클릭으로 0회 매출을 관찰할 확률은 얼마인가?"

- 이항분포의 평균 = n x p

- n이 크고, p가 0 또는 1에 너무 가깝지 않은 경우, 이항분포는 정규분포로 근사할 수 있다.

- 이항 결과는 무엇보다도 중요한 결정사항들(구매 또는 구매하지 않거나 클릭하거나 클릭하지 않고 생존하거나 죽는 등)을 나타내기 때문에 모델을 만드는 데 매우 중요하다.

푸아송분포, 지수분포, 베이불분포

- 일정 비율로 발생하는 사건의 경우, 시간 단위 또는 공간 단위당 발생하는 사건의 수를 푸아송분포로 모델링할 수 있다. (ex. 5초동안 서버에 도착한 이터넷 트래픽을 95%의 확률로 완벽하게 처리하는 데 필요한 용량은 얼마일까?)

- 이 시나리오에서, 한 사건과 다음 사건 간의 시간/거리를 지수분포로 모델링할 수도 있다. (ex. 개발 고객 상담에 소요되는 시간을 모델링)

- 시간에 따라 변화하는 사건 발생률(예를 들어 증가하는 고장률)은 베이불분포로 모델링할 수 있다.

- 푸아송분포 :표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포

- 람다 lamda : 단위 시간이나 단위 면적당 사건이 발생하는 비율

- 푸아송이나 지수분포에 대한 시뮬레이션 연구에서 핵심은 변수가 해당 기간동안 일정하게 유지된다는 가정이다. 전반적으로 이는 거의 적절하지 않다. 그러나 시간 주기 또는 공간을 일정 기간 충분히 동일하도록 영역을 잘 나눈다면, 해당 기간 내의 분석 및 시뮬레이션이 가능하다.

로지스틱 회귀

- 로지스틱 모형 식은 독립 변수가 [-∞,∞]의 어느 숫자이든 상관 없이 종속 변수 또는 결과 값이 항상 범위 [0,1] 사이에 있도록 한다.

- 로지스틱 회귀는 이항형 또는 다항형이 될 수 있다. 이항형 로지스틱 회귀(binomial logistic regression)의 경우 종속 변수의 결과가 (성공, 실패) 와 같이 2개의 카테고리가 존재하는 것을 의미하며 다항형 로지스틱 회귀는 종속형 변수가 (맑음, 흐림, 비)와 같이 2개 이상의 카테고리로 분류되는 것을 가리킨다. 이항형 로지스틱의 회귀 분석에서 2개의 카테고리는 0과 1로 나타내어지고 각각의 카테고리로 분류될 확률의 합은 1이 된다.

- 로지스틱 회귀는 선형 회귀와 유사하다. 하지만, 로지스틱 회귀의 모델은 종속 변수와 독립 변수 사이의 관계에 있어서 선형 모델과 차이점을 지니고 있다. 첫 번째 차이점은 이항형인 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한된다는 것이고 두 번째 차이점은 정규분포 대신 이항분포를 따른다는 점이다.

A/B테스트

- 연구 대상을 두 가지 이상의 그룹 중 하나에 할당한다. ( 귀무가설과 대립가설이 모든 가능성을 설명할 수 있어야 한다.)

재표본추출

- 재표본추출에는 부트스트랩과 순열검정이라는 두 가지 주요 유형이 있다.

- 순열검정(permutation) : 두 개 이상의 표본을 함께 결합하여 관측값들을 무작위로 재표본으로 추출하는 과정

- 복원/비복원 : 표본을 추출할 때, 이미 한번 뽑은 데이터를 다음 번 추출을 위해 다시 제자리에 돌려 놓거나/다음 추출에서 제외하는 표집 방법.

p값

- 귀무가설을 구체화한 기회 모델이 주어졌을 때, 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률

(ex. p값이 0.308이면, 우연히 얻은 결과의 30%정도가 관찰한 것만큼 극단적이거나 그 이상 극단적인 결과를 얻을 것으로 기대된다)

- 우리가 p값을 통해 전달하고자 하는 의미는 다음과 같다. "결과가 우연에서 비롯될 확률".

- 우리는 더 낮은 p값을 원하고 결국 뭔가를 증명했다고 결론을 내릴 수 있기를 바란다. 많은 저널 편집자들이 p값을 이런 식으로 해석한 것이다. 그러나 실제 p값이 나타내는 것은 다음과 같다. "랜덤 모델이 주어졌을 때, 그 결과가 관찰된 결과보다 더 극단적일 확률" 즉 p값은 귀무가설로부터 나올 수 있는 결과가 관찰된 결과만큼 극단적으로 나타날 확률이다.

- 유의수준(알파)이란, 귀무가설 모델에서 '비정상'으로 판단할 임계값을 말한다.

- p 값이 유의미하다고 해서 그것이 기대처럼 바로 '증거'가 되는 것은 아니다. p값의 진짜 의미를 이해하면 '통계적으로 유의미하다'는 결론에 대한 논리적 뒷받침이 다소 약하다는 것을 알게 된다.

- 데이터 과학자에게 p값은 관심 있고 유용한 모델의 결과가 일반적인 랜덤 변이의 범위 내에 있는지를 알고 싶을 때 유용한 측정 지표이다. p값을 모든 실험에서 의사 결정을 좌우하는 도구로서 간주해서는 안 된다.

p값에 대한 오해, 그리고 새로운 원칙들

1. p값은 이 데이터가 특정 통계 모델과 얼마나 상반되는지 나타낼 수 있다.

2. p값은 연구 가설이 사실일 확률이나, 데이터가 랜덤하게 생성되었을 확률을 측정하는 것이 아니다.

3. 과학적 결론, 비즈니스나 정책 결정은 p값이 특정 임계값을 통과하는지 여부를 기준으로 해서는 안 된다.

4. 적절한 추론을 위해서는 완전한 보고와 투명성이 요구된다.

5. p값 또는 통계적 유의성은 효과의 크기나 결과의 중요성을 의미하지 않는다.

6. p값 그 자체는 모델이나 가설에 대한 증거를 측정하기 위한 좋은 지표가 아니다.

제1종과 제2종 오류

- 1종오류: 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우

- 2종오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우

실제로 2종 오류는 어떤 오류라기보다 표보느기가 너무 작아서 효과를 알아낼 수 없다고 판단하는 것과 같다. p값이 통계적 유의성에 미치지 못하는 경우(예를 들면 5%초과), 실제 의미는 '효과가 아직 입증되지 않았다'는 뜻이다. 표본크기가 더 클수록 p값이 더 작아진다.

유의성 검정(가설검정)의 기본 기능은 어쩌다 우연히 일어난 일에 속지 않도록 하는 것이다. 따라서 보통은 1종 오류를 최소화하도록 가설을 설계한다.

유의수준(알파)

- 실제 결과가 통상적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 기회 결과가 능가해야 하는 '비정상적인' 가능성의 임계 확률.

- 많이 사용되는 유의수준은 5%와 1%.

- 올바른 x%값을 보장하는 프로세스는 없다. 이는 확률 문제가 '우연히 일어날 확률은 무엇인가'가 아니라 '랜덤 모델이 주어졌을 때, 극단적인 결과가 나올 확률은 어느 정도 인가?'이기 때문이다. 즉 랜덤 모델의 적합도에 관해 역으로 추적하는 것이고, 그에 대한 판단은 어떤 확률로 나타나지 않는다.

t검정

- t통계량 : 표준화된 형태의 검정통계량

- t분포 : 관측된 t통계량을 비교할 수 있는, 귀무가설에서 파생된 기준 분포

모든 유의성 검정은 관심 있는 효과를 측정하기 위한 검정통계량을 지정하고, 관찰된 효과가 정상적인 랜덤 변이의 범위 내에 있는지 여부를 판단하는 데 도움을 준다. 재표본 검정에서 데이터의 척도는 큰 문제가 되지 않는다.

자유도 (degrees of freedom, d.f)

- 표본을 통해 모집단의 분산을 추정하고자 할 때 분모에 n을 사용하면 추정치가 살짝 아래쪽으로 편향될 것이다. 분모에 n-1을 사용하면 추정값에 편향이 발생하지 않는다.

- 데이터과학자에게는 거의 차이가 없자만, 회귀에서 요인변수를 사용할 때 관련성이 있다.

분산분석(ANOVA - analysis of variance)

- A/B 검정 말고, 여러 그룹 간의 통계적 유의미한 차이를 검정하는 통계적 절차

- ex. a,b,c,d 페이지당 머문 시간 차이. (재표집된 분산이 관찰된 변화를 초과한 시간은 어느 정도일까? 이것이 바로 P값이다.

- 두 그룹의 평균을 비교하기 위해 순열검정 대신 t검정을 사용할 수 있는 것처럼, F통계량을 기반으로 한 ANOVA통계 검정도 있다.

카이제곱검정 (chi-square test)

- 웹 테스트 시, 종종 단순한 A/B검정을 넘어 동시에 여러 가지 처리를 한 번에 테스트할 필요가 있다. 카이제곱검정은 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정한다. 통계적 관행에서 카이제곱통계량은 일반적으로 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r x c분할표를 함께 사용한다. (r x c는 각각 '행과 열'을 의미한다.)

- 카이제곱통계량 : 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치

- 기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도

멀티암드 밴딧 알고리즘 multi-armed bandit (MAB)

- 멀티암드 밴딧 알고리즘은 실험설계에 대한 전통적인 통계적 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사결정을 가능하게 하며, 여러 테스트, 특히 웹 테스트를 위해 이를 사용한다.

- 데이터 과학에서 카이제곱검정, 특히 피셔의 정확검정을 활용하는 대표적인 예로, 웹 실험에 적합한 표본크기를 판별하는 일을 들 수 있다. 이러한 실험은 종종 클릭률이 매우 낮기 때문에 수천 번으 ㅣ실험에도 불구하고 집계 비율이 너무 낮아 실험을 통해 확실한 결론을 내리기 어렵다.

- 카이제곱검정이나 피셔의 정확검정은 데이터 과학과의 직접적인 연관성을 찾기 어렵다. 실생활에서 실험의 목표는 단순히 통계적인 유의성을 조사하는 것이 아니라 최적의 처리 방법을 찾는 것이다. 이를 위해서는 멀티암드 밴딧 방법이 더 정확한 해결책이라고 할 수 있다.

멀티암드 밴딧 : 고객이 선택할 수 있는 손잡이가 여러 개인 가상의 슬롯머신을 말하며, 각 손잡이는 각기 다른 수익을 가져다준다. 다중 처리 실험에 대한 비유라고 생각할 수 있다.

- 밴딧 알고리즘은 하이브리드 접근 방식을 취한다. 우위를 가진 것만 선택하지 않고, 다른 것에도 기회를 더 준다. 그렇기 때문에 초기 테스트에서 벌어지는 우연한 결과와 상관없이 더 많은 테스트를 통해 사실이 밝혀진다.

- A/B테스트와 다른 점 : 전통적 A/B검정은 임의표집 과정을 기본으로 하기 때문에, 수익이 낮은 것을 너무 많이 시도할 수 있다. 이와 대조적으로 MAB는 실험 도중에 얻은 정보를 통합하고 수익이 낮은 것의 빈도를 줄이는 쪽으로 표본 추출 과정을 변경한다. 또한 두 가지 이상의 처리를 효과적으로 다룰 수 있다. 추출 확률을 수익이 낮은 처리에서 수익이 높으리라 추정되는 쪽으로 이동시키기 위한 다양한 알고리즘이 존재한다. (탐욕 알고리즘, 톰슨의 샘플링, 베타 분포)

출처 :

http://www.11st.co.kr/products/3623264719/share

[11번가] 데이터 과학을 위한 통계 : 데이터 분석에서 머신러닝

카테고리: 취미기타, 가격 : 30,600원

www.11st.co.kr

http://www.pmean.com/09/AppropriateSampleSize.html

P.Mean: The first three steps in selecting an appropriate sample size (created 2009-07-20)

I got an email last week from a client wanting to start a new research project looking at relationships between parenting beliefs and childhood behaviors. The description of the sorts of things to examine was quite elaborate, and it ended with the question

www.pmean.com

https://assaeunji.github.io/bayesian/2021-01-30-mab/

'데이터' 카테고리의 다른 글

[python] inheritance, slicing (0)	2021.07.03
[python] class, object, attributes, methods (0)	2021.07.03
[강의] 100 Days of Code - The Complete Python Pro Bootcamp for 2021 (0)	2021.04.29
[책] 데이터 분석을 위한 SQL 레시피 (0)	2021.04.29
[SQL] 사이트 내의 사용자 행동 파악하기 (0)	2021.02.08

현재글[책] 데이터 과학을 위한 통계

기획자 아카이브