인천시 **고등학교 11월 빅데이터 진로 캠프 교육 정리
- 교육 대상 : 고등학교 1학년
- 교육 시간 : 2시간
- 교육 내용 : 빅데이터 이론 설명 및 빅데이터를 이용한 시각화 및 분석
1. 빅데이터란 ?
빅데이터에 관한 간단한 영상 첨부
예전과는 다르게 기술이 발달하면서 많은 부분을 웹상에서 해결이 가능하게 되었다. 실제로도 핸드폰 하나로 많은 부분을 해결 가능한 세상이기에, 개인이 많은 양의 데이터를 사용하며 하루에 대략 오백억기가의 데이터가 쌓이게 된다. 이렇게 많은 데이터들이 쌓이면서 일정한 패턴들이 보이게 되었다. 이 패턴들을 이용하여 무언가를 예측하고. 추천도 해줄 수 있다. 결과적으로 수많은 데이터를 통해서 그 안에서 패턴을 읽고 의미 있는 인사이트를 도출해 낼 수 있는 걸 빅데이터라고 간단히 설명할 수 있겠다.
● 데이터란 ?
관찰이나 측정, 실험, 조사를 통해 수집한 값 또는 사실
이론을 세우는데 기초와 바탕이 되는 사실 또는 자료


우리 일상 속에서 많은 데이터를 사용하고 있다.
아침에 일어나서 날씨 데이터를 보거나, 등교 준비 시 교통 데이터를 확인하고, sns를 통해 정보를 얻고, 소통을 한다. 학교에서는 수업시간에 컴퓨터를 이용해 데이터를 얻고, 여가시간에 음악을 듣거나 태블릿 등으로 동영상 강의 시청도 가능하다.
이러한 수많은 데이터들 중 자신에게 필요한 데이터를 잘 활용하면 새로운 지식을 얻을 수 있다.
● 우리가 일상 속 접하는 데이터들
1. 지도 어플의 지리, 교통 정보 데이터


우리가 많이 사용하는 지도 어플에서 쉽게 데이터를 이용되는 모습을 확인할 수 있다.
지도 어플에 표현된 장소 같은 경우 위도와 경도 데이터가 우리가 보기 쉽게 지도상에 표현되어 있으며, 역 정보, 배차 간격, 주변 정류장 정보, 버스 정보 등을 알 수 있다.
2. 멀티미디어 데이터


스마트폰으로 찍은 사진의 속성을 확인하면 사진의 데이터들이 포함되어 있다.
촬영 시간, 사진 이름, 촬영 기종, 촬영 설정 값, 파일 크기, 위치 등 우리가 자주 찍는 사진 속에도 멀티미디어 데이터들이 포함되어 있다.
2. 데이터 수집
그러면 일상 속의 이 데이터들을 누가 어떻게 수집하고 생성할까?
크게 수동으로 수집, 자동으로 수집, 자발적인 데이터 생성 세 가지로 나눌 수 있다.

3. 빅데이터의 특성
오늘날 빅데이터의 특징은 크게 5가지로 말할 수 있으며, 5V라고 불린다.

1. 데이터의 규모 VOLUME - 데이터의 크기
기존에는 기술적인 한계로 한정된 데이터만을 수집할 수 있었지만, 통신기술의 발달로 인터넷을 통해 전 세계의 데이터를 실시간으로 수집할 수 있게 되었다.

2. 데이터의 다양성 VARIETY - 다양한 종류의 데이터를 수용하는 속성

정형데이터는 열과 행으로 구성된 테이블에 숫자, 문자열 등 형식에 맞춰 파악하기 쉬운 데이터를 의미한다.
비정형 데이터는 미리 정의된 구조와 형식이 없는 이미지, 텍스트, 동영상, 음성등을 말한다.
기존에는 의미 파악이 쉬운 표형식의 정형 데이터만이 분석의 대상이었는데 기술이 발전하면서 비정형데이터들도 파악이 가능하게 되었다.
3. 데이터의 속도 VELOCITY - 데이터를 빠르게 처리하고 분석할 수 있는 속성
4. 데이터의 정확성 VERACITY - 데이터에 부여할 수 있는 신뢰 수준
5. 데이터의 가치 VALUE - 빅데이터를 저장하려고 IT 인프로 구조 시스템을 구현하는 비즈니스 적으로 유용한 속성
4. 빅데이터의 활용
● 빅데이터 활용 예시 1
버스 혼잡도 정보 제공 - 교통카드 태그 데이터를 활용한 혼잡도 계산

버스혼잡도를 집계하는데 빅데이터를 활용한다. 승객이 버스에 탑승한 뒤 단말기에 접촉한 교통카드 승·하차 정보로 차 안의 인원을 집계하고 차량의 크기를 고려해 혼잡도를 판정한 것이다.
● 빅데이터 활용 예시 2
개인 맞춤형 콘텐츠 추천
요즘 개인에게 맞춰진 알고리즘이 많은 이슈가 되는데, 예를 들어 유튜브에서 나에게 맞은 알고리즘을 어떻게 추천해 주는 것일까?

유튜브를 이용하면서 우리의 행동이 계속 쌓여 특징이 파악이 되면서, 개인에게 알맞은 알고리즘으로 영상을 추천해 주게 되는 것이다.
5. 빅데이터 활용 실습
데이터 시각화를 통한 데이터 분석과 insight 도출 활동
- 데이터 다운
- 데이터 파악 및 문제 정의
- 정의한 문제 시각화 하기
- 시각화 자료 평가하고 정리하기
아래는 학생들과 실습 후 시각화 자료 결과물과 인사이트 도출한 예시이다.
활동 주제 : 가장 높은 월 수입 TOP10 유투버의 지난 30일 조회수

Q1. 가장 인기 있는 분야는 엔터테인먼트이다?
Y. 유투버 타입 분야 Animals, Education, Entertainment, Music 중 Entertainment가 7명으로 가장 많기 때문이다.
Q2. 조회수가 많으면 구독자수도 많다?
N. 조회수가 많으면 구독자수도 많은 경우도 있지만, 조회수에 비해 구독자수가 적은 경우가 더 많다.
Q3. 조회수와 수입은 비례하다?
Y. 값을 표현하는 y축을 보았을 때 조회수가 높을수록 월수입도 높은 것을 확인할 수 있다.
'BigData' 카테고리의 다른 글
| 빅데이터 분석 | 타이타닉 데이터 분석 (0) | 2024.10.29 |
|---|---|
| 빅데이터 분석 | 빅데이터 분석 과정 활동 (0) | 2024.10.27 |
| 빅데이터 분석 | 빅데이터 분석 이론 (0) | 2024.10.23 |
| 빅데이터 이론 및 분석과 시각화 교육 후기 (4) | 2024.07.16 |