본문 바로가기

통계 및 데이터분석26

데이터와 신경망: Data, Synthetic data, DNN/CNN/RNN 데이터와 신경망: Data, Synthetic data, DNN/CNN/RNN 1. 학습데이터 데이터란 어학사전에 따르면 이론을 세우는 데 기초가 되는 사실 혹은 바탕이 되는 자료를 말한다. 인공지능과 머신러닝 모델 학습의 경우 해당 모델을 학습시킬 데이터가 반드시 필요하다. 예를 들어 사과를 인식하는 AI가 있다고 할 때 다양한 상황에서 사과를 인식하기 위해 많은 사과들을 학습하게 된다. 빛, 조명, 위치, 색 등 여러 조건이 변화해도 사과를 인식할 수 있도록 다량의 양질의 사과 이미지 데이터가 필요하다. 이 과정에서 필요한 다량의 양질의 사과 이미지 데이터가 바로 학습데이터이다. 최근 AI가 많이 발전되면서 객체인식을 통해 안전관리를 할 수 있는 기기가 많이 생겨나고 있다. 인공지능을 학습시키기위해 .. 2023. 6. 28.
[통계적 연구방법]ANOVA 세 집단 이상의 평균 비교 : 엑셀과 R실습 ANOVA 세 집단 이상의 평균 비교 1. ANOVA 두 집단의 평균비교를 할 때는 t-test를 이용하지만 세 집단 이상의 평균비교는 ANOVA(Analysis of variance)를 통해 진행한다. 평균비교를 하는 방법이지만 Analysis of valiance 즉 ANOVA 분산비교라고 하며, 삼원분산분석의 경우 결과 해석이 어렵기 때문에 상호작용이 통계적으로 유의해야하고 이를 잘 해석해야한다. ANOVA의 귀무가설은 비교하는 모든 집단의 평균이 같다는 것이며 대립가설은 다 같은 것은 아니고 다른 한 쌍이 있다는 것이다. 이처럼 ANOVA는 비교하는 집단의 평균이 모두 같은 것은 아니다라는 것을 밝히기 위한 비교방법이다. ANOVA의 기본 가정으로 개별적 분포는 정규분포를 따른다는 전제가 있고 A.. 2023. 6. 27.
[통계적 연구방법론] 가설검정, T-test 두 집단의 평균 비교 가설검정, T-test 두 집단의 평균 비교 연구가설 설정 시가설은 개념정 정의로 설정, 실증연구는 조직적 정의로 해야한다.데이터를 모은 것은 기존문헌연구가되고 가설을 세우고통계적으로 분석하는 것이 중요하며 분석 진행 시 기술통계법, 통계적 가설검정, 결론을 쓰고 어떻게 해야한다 까지 제시하는 것이 논문의 전체 흐름이다. 1. 가설검정 가설검정은 모집단의 특성에 관한 가설을 표본에서 얻은 정보와 비교하여 검토하는 통계적 추론 방법을 말한다. 가설검정은 어디서 부터 어디까지인지 면적을 계산할 줄 알아야한다. 중심극한정리 엑스바 분포가 근사적으로 표본 30개 이상일 때 정규분포 가설검정은 귀무가설과 대립가설이 필요하다. 귀무가설은 가설 검정으로 검증하고 싶은 가설을 말한다. 대립가설은 귀무가설이 성립되지 않.. 2023. 6. 27.
[통계적 연구방법] 독립성검정(카이스퀘어 테스트) 엑셀과 R실습 독립성검정(카이스퀘어 테스트) 엑셀과 R실습 1. 독립성검정 독립성검정은 표를 교차해서 그리는 것으로 교차상관표 즉 cross tabulation이라고 한다. 독립성검정, 교차상관표, 카이스퀘어테스트 모두 같은 표현이다. 독립성검정은 시장세분화를 하기 위해 쏠림이 있는지 분석하기 위한 방법이며 마케팅 조사기관에서 소비자 설문조사시 가장 많이 사용하는 방법이다. 쏠림이 있는지 나온 결과를 통해 마케팅 전략에 적용하고 쏠림이 있는 경우 상관이 있다는 것이며 쏠림이 없는 경우 독립이라고 한다. 쏠림이 없는 경우 골고루 퍼져있다고 할 수 있다. 쏠림이 있다 - 상관 dependent 쏠림이 없고 골고루 퍼져있다-독립 independent 2. 기대도수 기대도수는 전체가 골고루 퍼져있다고 가정했을 때 값으로 기대.. 2023. 6. 26.
[통계적 연구방법] 회귀분석(2) : 다중공선성, 더미변수, 엑셀과 R실습 회귀분석(2) : 다중공선성, 더미변수, 엑셀과 R실습 1. 다중공선성(Multi-collinearity) 다중공선성은 상관관계가 비교적 높은 X독립변수를 모형에 함께 사용했을 때 나타나는 현상을 말한다. 변수를 많이 집어넣을수록 생기는 문제이며, 적합도(R^2)는 높은데 유의한 변수(p-value가 0.1보다 작음)가 거의 없는 상태이다. 회귀분석은 각 독립변수와 종속 변수의 관계를 결정하여 어떤 변수에서 영향이 오는지 확인하기 위한 것인데 다중공선성으로 인해 영향을 제대로 파악할 수 없고 정확한 판단이 어려워진다. 결국 회귀분석의 p값은 유의미하지 않으며 값을 해석할 수 없게 된다. 다중공선성은 이처럼 독립변수의 통계적 유의성을 왜곡하기 때문에 문제가 되며, 이러한 문제는 상관관계 높은 변수를 하나씩.. 2023. 6. 26.
[통계적 연구방법] 회귀분석(1) : 회귀분석, 최소제곱법 회귀분석(1) : 회귀분석, 최소제곱법 회귀분석을 통해 마케팅 전략을 정할 수 있다. 통계를 통해 구체적인 계수, 수치로 두 요인의 관계를 분석하여 어떤 요소가 높은 성장을 가져다 주는 지 어느 부분에서 비즈니스의 방향을 잡아야하는지 도와준다. 1. 회귀분석 회귀분석은 결과가 되는 수치과 요인이 되는 수치의 관계를 조사해, 두 관계를 밝히는 통계적 기법을 말한다. 결과가 되는 수치를 결과 변수, 요인이되는 변수를 원인변수라 한다. Y값을 잘 설명하는 X를 발견하는 것이 중요하며 X를 값으로 표현할 수 없을 때 더미변수를 사용하여 나타낸다. 회귀분석은 통제할 수 있는 X를 움직여서 Y를 예측하며 회귀분석 모형은 다음과 같다. 정확도가 높은 회귀 분석을 위해서는 정확한 데이터 수집, 고급 데이터 처리, 정확.. 2023. 6. 26.
[통계적 연구방법] 컨조인트 분석: 엑셀과 R실습 컨조인트 분석: 엑셀과 R실습 1. 컨조인트 분석 컨조인트 분석은 여러 특성을 잘 조합하여 최고의 구매 및 호감을 이끌어내기 위한 분석이며 몇개 순위 중 최상의 조합을 찾는 방법이다.제품의 어떤 요소가 소비자의 구매 의도에 영향을 미치는지, 어느 정도까지 영향을 미치는지 정량적으로 확인할 수 있으며, 여러 요인 중 어떤 것이 중요한지, 어떤 기능의 조합을 선택해야 하는지 파악할 수 있다. 컨조인트 분석 결과는 단순한 설문조사보다 더 신뢰할 수 있으므로 기존 방법보다 더 신뢰성 높은 결정을 내릴 수 있다. 이처럼 컨조인트 분석의 장점은 구체적인 수치로 요소의 중요성을 이해할 수 있을 뿐만 아니라 최적의 조합을 보여준다는 것이다. 또한 비교적 신뢰할 수 있다는 것도 장점 중 하나이다. 2. 실습: 컨조인트 .. 2023. 6. 26.
[통계적 연구방법] 중심극한 정리: 엑셀로 정규분포 그래프 그리기 중심극한 정리: 엑셀로 정규분포 그래프 그리기 1. 중심극한 정리 중심극한 정리는 동일분포를 가지는 분포들의 평균은 개수가 많아지면서 항상 정규분포로 수렴한다는 것을 말한다. 모집단이 아닌 30개 이상의 표본의 x바는 모두 다르다. 실증연구 진행시 똑같은 변수에 대해 다른 샘플을 모으기 때문에 수집한 각각의 변수가 정확히 어떤 분포를 갖는지는 알 수 없다. 표본평균은 분포에 따르며 30개 이상으로 표본을 구하면 엑스바가 정규분포를 근사적으로 따르며, 정규분포를 따를 때 분산은 원래의 분산보다 표본의 크기만큼 작아진다. 샘플사이즈를 키울수록 분산이 작아지며 정확한 표본평균을 구할 수 있다. 2. 정규분포 수록 급격하게 수치가 낮아지며 이러한 형상이 종모양과 유사하다. 표준편차 개수에 따른 자료값의 정확한 .. 2023. 6. 26.
[통계적 연구방법] 상관관계 분석: 엑셀, R 이용하여 상관계수 구하기 상관관계 분석: 엑셀, R 이용하여 상관계수 구하기 연구에서 문제를 풀기위한 데이터 수집했을 때 기술통계법을 통해 위치정보, 변동성 정보를 바탕으로 표를 만들어 설명한 후 주요 변수간 상관관계를 나타내는 것은 실증연구에 반드시 필요한 과정이다. 1. 상관관계 일정하게 계산된 값인 두 변수간의 직선에 대한 관계를 나타낸다. 서로 얼마나 관련되어 있는지를 나타내며 서로 관련성이 있다고 추측되는 관계를 한다. 공분산으로 상관관계를 나타낼 수 있으며 양의 상관관계, 음의 상관관계, 상관관계가 없는 경우 크게 세가지로 나누어볼 수 있다. x,y의 상관관계를 나타내는 그래프를 간단하게 보면 아래 그림과 같다. 양의 상관관계의 경우 한 값이 증가할 때 다른 한 값도 증가하거나 감소할 때 똑같이 감소하는 경우를 말한다.. 2023. 6. 25.
기계학습이란? 지도학습, 비지도학습, 강화학습, SPSS Modeler 기계학습이란? 지도학습, 비지도학습, 강화학습, SPSS Modeler 1. 기계학습 기계학습은 인공지능기법이자 인공지능에 필요한 지식을 찾는 방법을 말한다. 다수 파라메터 갖는 모형에 데이터를 학습시켜 최적화된 파라메터 값을 찾아 일반화된 패턴을 찾고, 도출된 모형을 통해 예측이나 분류와 같은 의사결정 문제를 해결할 수 있다. 기계학습을 통해 대량의 기록 데이터를 처리 및 분석할 수 있다. 기계학습은 지도학습, 비지도학습, 강화학습으로 구분할 수 있으며 지도학습은 라벨링 작업이 필요한 학습을 말한다. 라벨링 작업은 예를 들어 사과의 이미지가 있을 때 이미지에 표시를 해 "사과"라고 직업 이름을 달아주는 작업을 말한다. 하지만 지도학습은 데이터가 많아질수록 모든 데이터를 직접 라벨링하는데에 어려움이 있다.. 2023. 6. 25.
데이터 분석 유형(descriptive, predictive) 데이터 분석 유형(descriptive, predictive) 1. 데이터 분석 유형 데이터 분석은 의사결정에 유용한 정보나 지식을 추출하기 위해 데이터로부터 사실이나 관계, 패턴 등을 발견하는 과정을 말한다. 현재상황 사실파악, 현재 상황의 원인파악, 미래나 결과 예측, 해결방안 도출 등의 유형으로 나눌 수 있으며 빅데이터에서 주로 쓰이는 대표적 유형으로 Descriptive Analysis와 예측분석(Predictive Analysis)로 나눠볼 수 있다. 1) descriptive 유형 descriptive 유형은 데이터를 요약해서 정보를 생성하며 이를 바탕으로 사실을 이해하고 현황을 파악하고 결과적으로 의사결정의 질을 높여준다. 현재 데이터를 요약해서 현황을 파악해주는 기법이며 더 나은 의사결정을.. 2023. 6. 25.
분산 데이터 처리 프레임워크 Hadoop 분산 데이터 처리 프레임워크 Hadoop 1. 하둡 Hadoop 하둡은 대용량 데이터 분산 저장과 처리가 가능한 자바 기반의 오픈소스 프레임워크이다. 다운받아서 사용할 수 있는 오픈소스 프레임워크이자 패키지의 집합이며 저장 처리 분석까지 가능한 프레임워크이다. 분산 데이터 처리 프레임워크는 여러개 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술을 말한다. 대용량 파일을 저장하는 기능을 하는 분산파일시스템과 저장된 분산파일을 분산된 서버의 CPU와 메모리 자원을 통해 분석하는 기능을하는 맵리듀스로 이루어져있다. 또한 하둡은 대용량 데이터 처리와 클라우드 환경에 최적이다. 클라우드 컴퓨팅이란 소프트웨어나 데이터를 내 서버에 두는 것이 아니라 인테넷과 연결된 중앙컴퓨터에 만들어놓고 클라이언트는 접속.. 2023. 6. 25.