인천시 **고등학교 7월 빅데이터 진로 캠프 교육 정리
- 교육 대상 : 고등학교 1학년
- 교육 시간 : 3시간
- 교육 내용 : 빅데이터 이론 설명 및 빅데이터를 이용한 분석 및 시각화
1. 빅데이터란 ?
" 일상생활 속 다양한 데이터"

스마트폰 등 전자기기가 보편화된 21세기에 우리 일상생활에 굉장히 많은 데이터들이 쌓이고 사용되고 있다.
아침에 일어나서 날씨 데이터를 보거나, 등교 준비 시 교통 데이터를 확인하고, sns를 통해 정보를 얻고, 소통을 한다. 학교에서는 수업시간에 컴퓨터를 이용해 데이터를 얻고, 여가시간에 음악을 듣거나 태블릿 등으로 동영상 강의 시청도 가능하다.
빅데이터는 단순히 대량의 데이터 집합이라는 뜻뿐만 아니라, 대량의 데이터를 분석하여 의미 있는 가치를 추출하고 결과를 분석하는 기술까지 의미한다.
"데이터를 수집뿐만이 아니라 수많은 데이터 중에서 필요한 데이터만을 골라 이를 적절하게 활용할 줄 아는 능력 중요"
2. 빅데이터의 활용
● 21세기에서 빅데이터는 어떻게 사용될까
1. 트렌드 분석
데이터를 바탕으로 트렌드를 분석하고 트렌드 분석을 통해 얻은 정보를 이용해 마케팅, 신제품 기획 등을 할 수 있다.
- 비건(VEGUN)


전 세계적인 비건 열품에 맞춰 식품, 뷰티, 명품 다양한 분야에서 비건제품을 출시하고 있다.
MZ세대를 겨냥한 비건 제품을 출시하는 기업들도 있으며, 기업들도 비건들도 즐길 수 있는 식품들을 내놓으면서 전보다 비건인들이 다양한 선택지를 고를 수 있도록 개발 및 마케팅을 하고 있다.
- 발길을 이끄는 팝업스토어 마케팅

소비자들의 시선과 발길을 이끌어야만 인지도가 높아지고 매출로 이어지기 때문에 기업들은 구매를 통해 자신의 가치관을 드러내는 '가치' 소비 트렌드와 SNS를 활봘하게 사용한다는 특성을 반영한 마케팅 방식 중 팝업 스토어 마케팅이 요즘 많아졌다.
2. 미래 예측
데이터를 바탕으로 데이터에 존재하는 패턴을 파악하고 이를 기반으로 미래를 예측
- 기상 정보

관측된 풍향, 온도 등 기상 데이터 기반으로 수치 모델링을 통해 언제 비가 올지, 바람은 얼마나 어디로 불지, 온도는 어떨지 예측이 가능하고 이에 대비할 수 있다.
- 수요 예측
특정 제품에 대한 수요의 증감, 특정 제품과 함께 팔릴 가능성이 높은 조합 등 AI를 통해 미리 예측하고 대비 가능하다.
3. 인공지능 학습 - ChatGPT

Open AI의 GPT-3 모델은 책, 과학 기사부터 웹 페이지와 소셜미디어 게시물까지 45 테라바이트가 넘는 다양하고 방대한 데이터 세트를 훈련하다. GPT 모델을 훈련시키기 위해서는 많은 양의 텍스트 데이터가 필요하며 텍스트 데이터가 많을수록 텍스트 패턴 및 구조 이해도가 높아진다.
● 빅데이터 = 21세기 원유

우리 몸의 70%는 물로 이루어져 있고, 몸의 소지품의 70%는 석유화학제품으로 이루어져 있다.
원유를 가공해 다양하고 가치 있는 제품을 만들어내는 것처럼 빅데이터를 활용해서 새로운 제품, 서비스 창출이 가능하다.
3. 빅데이터 전처리
● 데이터 분석 과정 (5단계)

● 데이터 전처리란?


빅데이터를 분석하기 전 필요한 작업으로 데이터를 정제, 변환, 통합하고, 노이즈 제거 및 이상치 처리 등을 수행하며, 이를 통해 데이터의 질을 높이고, 분석 결과의 신뢰성을 보장한다.
● 데이터 정제란?

- 결측치 처리 - 평균, 중앙값 대체/ 최빈값, 0 값으로 대체 / 근처값 대체
- 이상치 데이터 처리
● 데이터 변환이란?


데이터를 분석하기 좋은 형태로 바꾸는 작업으로 범주형 변환, 표준점수, 로그변환 등이 있다.
● 데이터 추가생성이란?
분석의 목표에 적합하게 데이터 형태를 수정보완하는 작업이다.
- - 평균, 합계 등 통계치 계산
- - 파생변수(기존의 데이터를 변형해 만드는 변수) 생성
4. 데이터 분석 기법
● 머신러닝이란?
데이터에서 규칙을 학습하고 결과를 예측하는 알고리즘을 통칭합니다.

● 지도학습
- 지도 학습은 정답 데이터가 존재하는 상황에서 학습하는 알고리즘이다. 좀 더 엄밀하게 정의하면 입력 데이터 x와 그에 대한 정답 레이블 y의 쌍 (x, y)를 이용해서 학습하는 알고리즘이다.
- 분류 문제(Classification) : 예측하는 결과값이 이산값인 문제
- 회귀 문제(Regression) : 예측하는 결과값이 연속값인 문제
● 비지도학습
- 비지도 학습은 정답 레이블 y 없이 입력 데이터 x만을 이용해서 학습하는 알고리즘이다. 즉, 입력 데이터 (x) 형태로 학습을 진행한다.
- 비지도 학습은 지도 학습 목적이 조금 다르다. 지도 학습의 목적이 어떤 값에 대한 예측을 수행하는 것이라면 비지도 학습은 데이터의 숨겨진 특징을 찾아내는 것에 목적이 있다.
- 비지도 학습은 단독으로 사용하기보다는 비지도 학습으로 파악한 데이터의 숨겨진 특징을 원본 데이터 대신 지도 학습의 인풋 데이터로 활용해서 지도 학습의 성능을 더욱 끌어올리는 용도로 많이 활용한다.
5. 마무리 Quiz
Q1. 데이터 전처리 과정은 ㅈㅈ,ㅂㅎ,ㅊㄱㅅㅅ 등이 있다. 이를 통해 데이터의 질을 높이고, 분석 결과의 신뢰성을 보장한다.
정제, 변환, 추가생성
Q2. 빅데이터 분석방법 2가지는?
통계적 분석, 데이터 마이닝
Q3. 머신러닝 알고리즘은?
지도학습, 비지도학습
6. 빅데이터 시각화
데이터 시각화란, 데이터를 분석하고 얻은 결과를 시각적으로 표현하는 것이다. 이를 통해 데이터 집합의 특성과 패턴을 직관적으로 이해하고, 중요한 인사이트를 발견하고 전달이 가능하다.
"데이터 분석을 잘하는 것도 중요하지만 결과를 잘 공유하고 정확한 의사전달을 하는 것도 중요하다."
● 다양한 데이터 시각화

5. 빅데이터 활용 실습
● 타이타닉 데이터 분석 및 시각화
- 가설 세우기
- 데이터 변수 확인
- 특정 변수와 타 변수의 상대적 생존율 가설 세우기
- 가설을 설정한 이유에 대해 이야기해 보기
- 데이터 전처리
- 데이터 정제
- 데이터 변환
- 데이터 추가 생성
- 데이터 분석
- 피벗테이블 이용하여 분석
- 피벗테이블의 각 숫자가 나타내는 값이 무엇을 의미하는지 학습하기
- 데이터 시각화
- 여러 가지 차트를 만들어 시각화하기
- 어떤 차트가 가장 직관적 일지 생각하기
- 가설 검증 및 통계
- 처음에 세웠던 가설이 데이터 분석 후 결과와 같은지?
- 왜 같거나 다른 결과가 나왔는지 토론하기
'BigData' 카테고리의 다른 글
| 빅데이터 분석 | 타이타닉 데이터 분석 (0) | 2024.10.29 |
|---|---|
| 빅데이터 분석 | 빅데이터 분석 과정 활동 (0) | 2024.10.27 |
| 빅데이터 분석 | 빅데이터 분석 이론 (0) | 2024.10.23 |
| 빅데이터 진로 캠프 교육 후기 (2) | 2023.11.11 |