수업 일지

2주차 정리

cort53 2024. 12. 27. 23:11

데이터 분석

 

가설 설정 

-귀무 가설: 기본적으로 참으로 추정되는 가설이며, 처음부터 버릴 것으로 예상하는 가설(차이가 크게 없거나, 의미 있는 차이가 없는 경우)

-대립 가설: 귀무 가설을 기각하는 명제, 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여짐

   <대립 가설의 종류>                                                                      

제 1형 양층 검정

 

제 2형, 3형 단측 검정

 

 

가설 검정의 기준: p-value(유의 확률)

: 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률

 

ex) 귀무가설: 돼지 10,000마리의 평균 체중은 100kg 이다.

(귀무가설이 참인지 증명하기 위해 무작위로 돼지 100마리 선정하여 평균 체중 측정)

-> 전체 평균이 100kg 일때 표본의 평균이 30kg이 나올 확률은 5% 미만

-> 30kg이 나오거나 더 극단적이 평균이 나올 확률이 p-value이며, 

이때 돼지 10,000마리의 평균 체중은 100kg이라는 귀무 가설을 기각함

 

단, p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연인지 변수에 의한 것인지 여부를 밝히는 것뿐이지

직접적인 효과나 변화의 정도, 관계의 강도나 크기를 설명하는 것은 아니다.

 

 

t-test 

두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

ex) 약을 복용하여 간수치를 확인하는 임상시험

 

t-test 시행 단계

적합한 t-test 방법을 선택하려면 F검정 필요

집단선택 -> F-검정 -> t-test  -> 결론 해석

 

F-검정 

두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

F-검정의 귀무 가설

두 집단의 분산에 유의미한 차이가 없다. (p>=유의수준)

F-검정의 대립 가설

두 집단의 분산에 유의미한 차이가 있다.(p<유의수준)

 

 

 

희귀 분석: 두 개 이상의 연속형 변수인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

y = ax+b    -> x=a값 , b=y절편

 

 

종속변수: 우리가 알고 싶은 값 

ex)  광고비에 의한 매출 변화를 알고 싶을 때 알고 싶은 매출액

 

독립변수: 우리가 알고 있는 값

ex) 광고비에 의한 매출 변화를 알고 싶을 때 우리가 지출한 광고비

 

희귀 분석의 목적: 두 변수 간의 관계를 파악해 알고 싶은 값을 예측 하는 것

 

희귀 분석 종류: 독립 변수(x)가 한 개 일때, 단순 선형 회귀 분석

                          독립 변수(x)가 여러 개 일때, 다중 선형 회귀 분석

 

 

 

 

 

 

회귀 분석 예시

   축세선 서식 활용, 축세선에서 떨어진 점들은 설명하기 어려움

 

 

 

 

시계열 데이터 분석

정상성을 가지고 있는 정상 시계열 데이터와 정상성을 가지고 있지 않은 비정상 시계열 데이터로 구분

 

정상성: 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질

대부분의 시계열 데이터는 비정상 시계열 데이터이며, 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에

차분이나 다른 방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터롤 변환해 분석하기도 함

 

 

 

지수 평활법

단순 지수 평활법

 

=FORECAST.ETS(target_date,values,timeline,[계절성주기],[누락데이터처리],[중복시계열처리])

target_date: 예측할 날짜

values: 알고 있는 실제 값들(과거 매출 등)

timeline:과거의 날짜들

[계절성주기]: seasonality / 12개월

[누락데이터처리]: data_completion / 보통 1 사용

[중복시계열처리]: aggregation / 평균 사용

 

 

 

 

 

머신러닝: 컴퓨터가 어떤 작업을 하는데 있어서 경험으로부터 학습하여 성능을 향상시키는 학문

지도학습: 정답이 있는 데이터를 확용해 데이터를 학습하고, 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습

 

 

비지도학습: 정답이 없는 데이터를 활용해 데이터를 학습, 데이터가 어떻게 구성되어 있는지, 혹인 어떻게 분류될 수 있는지에 대한 문제 해결 (요즘엔 데이터량에 증가에 따라 비지도 학습을 더 많이 사용됨) 

 

 

 

데이터 시각화

→ 데이터 시각화는 데이터 간의 관계를 식별하고, 숨겨진 패턴이나 추세를 감지, 데이터 중심 의사 결정 및 전략적 계획 수립을 지원하는 이야기를 만드는 스토리텔링

 

 

차트를 효과적으로 디자인 할 수 있는 4단계 원칙

1. 차트의 모든 데이터를 단색으로 변경(회색 추천)

2. 차트에서 가장 중요한(강조해야 하는) 데이터 선정

3. 차트의 메인 컬러(1개) 선택

4. 2의 중요 데이터만 3의 메인 컬러 적용

+ 데이터 레이블 추가 / 차트의 윤곽선 제거

 

※메인컬러 및 단색 사용할때에는 그 컬러보다 조금 연한 색이 보기 이쁨

색상 설정 예시

 

차트 종류

콤보형 차트: 2개 이상의 정보를 표현

 

거품형 차트: 숫자의 크기나 비율을 커품으로 나타내는 차트

'수업 일지' 카테고리의 다른 글

8주차 정리  (0) 2025.02.10
5주차 정리  (0) 2025.01.18
4주차 정리  (2) 2025.01.11
3주차 정리  (0) 2025.01.04
1주차 정리  (0) 2024.12.21