데이터 리터러시 및 노코드 분석
<데이터리터러시 정의>
데이터를 읽고 사용할 수 있는 능력.
데이터 사용 의존도가 높아지는 사회에서 인재가 반드시 갖추어야 하는 능력
왜곡된 데이터가 만들어낸 가짜를 구분할 수 있는 기본 능력.
데이터 기획
-현재 문제가 무엇이고 나는 무엇을 하고 싶은 것인가?
-문제 해결을 위한 가설 설정
-내가 세운 가설이 적절한가?
데이터수집
-문제를 해결하기 위해서 어떤 데이터가 필요한가?
-수집할 수 있는 데이터인가?
-데이터 수집을 위해 무엇이 필요한가?
-6하원칙을 통해 데이터를 수집
데이터 관리
-내가 수집한 데이터의 출처가 사용가능한 것인가?
-데이터에 오류, 변수가 얼마나 포함되어있고 추가되지 않은 데이터는 없는가?
-데이터의 양이 방대하다면 효율적인 관리를 위해 팀원을 확보
데이터 분석
-현재 데이터셋이 내가 하고자 하는 작업에 적합한가?
-데이터셋을 통해 무엇을 알아낼 수 있는가?
데이터 시각화
-데이터를 통해 찾아낸 의미를 어떻게 전달할 것인가?
-누구에게 어떤 방법으로 전달할 것인가?
-데이터를 모르는 사람도 한눈에 의미를 알 수 있는가?
-제작된 결과물이 편항되지는 않았는가?
<디지털 트랜스포메이션 DT,DX의 이해>
아마존 프라임, 테슬라 sw업데이트, 나이키, ZARA 데이터 기반 마케팅.
광주광역시 광산구 시설관리공단
문제상황: 폐기물 발생량 급증시 수거 문제 발생
원하는 모델: 폐기물 발생량 예측 시스템 구축
신뢰성, 특화성, 주기성의 특징을 가진 데이터를 수집함.
폐기물 발생량의 사회적 결정요인을 사회구조, 도시규모, 생활수준, 계절, 기상상황, 공휴일로 정의하고 각각을 행안부 연령별인구현황, 행안부 주민등록인구 세대현황, 공공데이터포털 공시지가, 공공데이터포털 일자별 기상정보, 공공데이터포털 특일정보에서 데이터를 수집함.
이러한 구조로 폐기물 발생량을 예측하고 시각화하는 웹사이트를 구축하고 이를 바탕으로 미화원을 고용하거나 근무환경을 개선하는 등 실질적인 변화를 일으킴
그러나, <외국인 여행객 인기 관광지 BEST10>같이 효용성이 없는 결과물은 데이터를 사용한다고해서 모든 결과물이 유용한 것은 아니다라는 것을 방증한다.
데이터를 어떻게 쓰냐에 따라 유의미한 결과물을 혹은 효용성 없는 결과물을 만들어 낼 수 있음.
일반적으로 가치있는 데이터 활용을 위해서는 비즈니스를 구상하고 이를 실현할 수 있는 데이터를 구하는 탑다운 방식이 적합함.
[기술 실습 start]
<파워쿼리란?>
Extract Transfrom Lord(ETL)을 하는 툴
<파워쿼리 주요기능>
다양한 소스에서 데이터를 가져올 수 있으며 사용자가 노코드로 사용 가능함.
<파워쿼리 실습 – 데이터 통합>
하나의 시트에 여러 쉘이 있을 때 효율적으로 통합하는 방법
새로운 시트(탭)를 열고
1. 데이터 – 데이터가져오기 – 통합문서에서 클릭
2. 통합하고자하는 시트(파일)를 선택
3. 데이터 변환 버튼 클릭
4. 파워쿼리 편집기가 열리면 Data열 우클릭 후 다른 열 제거
5. 데아터 확장 클릭 – 추가 로드 클릭 – 원래열이름접두사로사용 클릭해제 – 확인 클릭
6. 첫 행을 머리글로 사용 클릭, 데이터 메뉴버튼 클릭 – Null과 헤더명과 동일한 데이터 선택해지
7. 필요시 데이터 형식 수동 설정
8. 닫기 및 로드 클릭
이렇게 데이터를 통합하면, 원본데이터를 추가하거나 삭제, 수정하고난 뒤 통합한 시트에서 우클릭 후 새로고침을 하면 원본데이터의 변경사항이 반영됨.
<데이터 정제할 때 기억해야할 것>
-필요 없는 것 과감히 삭제
-하나의 Cell에는 하나의 값
-빠진 값 처리
<데이터 실습 – 웹데이터 크롤링>
정확한 방법은 pdf참고.
이 방법으로 크롤링한 데이터는 동적인 데이터임.
웹에서 데이터가 수정되면 크롤링에서 엑셀로 가져온 데이터에 새로고침을 하면 데이터가 수정됨.
그런데 이마저도 개발도구 – visual basic에서 새로고침 자동화가 가능함
<공동데이터 API 사용하기>
정확한 방법은 pdf참고
나는 api 파이썬으로 처리 가능하니까 그래픽스러운 방법은 몰라도 괜찮긴 할 듯.
<통계 기본지식 정리>
통계: 현상을 나타내고있는 데이터로부터 유용한 정보를 도출하여 적절한 의사결정을 하게 해주는 것.
귀무가설(독립), 대립가설(귀무가설의 반대)
cf)무죄추정의 원칙; 피고는 범죄와 관련이 없다(귀무가설)
P-value가 0.05이하이면 귀무가설이 기각되고 대립가설이 채택됨.
<기술통계>
각종 통계값에 대한 이해
왜도: 데이터가 대칭이 아닌 정도(대칭일수록 0에 가까워짐)
첨도: 정규분포에 가까울수록 0에가까워짐.
<상관분석>
회귀분석도 가능함
<다중 회귀분석>
'창업 > AI 스타트업 유니버시티' 카테고리의 다른 글
[AI 스타트업 유니버시티] 9일차 브랜딩 메시지 전략(마케팅) (0) | 2024.07.15 |
---|---|
[AI 스타트업 유니버시티] 8일차 법인설립절차 및 법인관련 세무 (0) | 2024.07.11 |
[AI 스타트업 유니버시티] 7일차 창업 아이디어 시각화 (0) | 2024.07.11 |
[AI 스타트업 유니버시티] 6일차 사업계획서 작성 및 예비창업패키지 합격 전략 (0) | 2024.07.10 |
[AI 스타트업 유니버시티] 4일차 지식재산권(IP) (1) | 2024.07.09 |