1. 데이터 사이언티스트 요구 역량
① Hard Skill (기술!! 느낌)
- 빅데이터에 대한 이론적 지식, 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련, 최적의 분석 설계 및 노하우 축적
② Soft Skill (창의!! 느낌)
- 통찰력 있는 분석, 창의적 사로, 호기심, 논리적 비판
- 설득력 있는 전달, 스토리텔링, Visualization
- 다분야 간 협력, Communication
→ 시험에서 각 스킬의 개념 및 구분 문제가 출제됨.
그리고 가트너가 말하는 데이터 사이언티스트가 찾워야할 역량에는 Hard Skill은 해당하지 않음!
: 데이터관리(데이터에 대해 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점),
소프트스킬(커뮤니케이션, 협력, 리더십, 창의력) 총 4개임.
2. 데이터 사이언티스트의 6가지 핵심 질문
과거 | 현재 | 미래 | |
정보 | 무슨일이 일어나는가 (리포팅, 보고서) |
무슨일이 일어나고 있는가? (경고) |
무슨 일이 일어날 것인가? (추출) |
통찰 | 어떻게, 왜 일어났는가 (모델링, 실험 설계) |
차선 행동은 무엇인가? (권고) |
최악, 최선의 상황은? (예측, 최적화, 시뮬레이션) |
→ 시험에서 정보! 통찰의 예시(붉은 글자)에 대해 출제됨.
3. 가치 패러다임의 변화
① 디지털화
- 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해 내는 원천
② 연결
- 디지털화된 정보와 대상들이 서로 연결되어, 이 연결이 얼마나 효과적이고 효율적으로 제공해 주느냐가
이 시대의 성패를 결정함.
③ 에이전시
- 사물인터넷의 성숙과 함께 연결이 증가하고 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리하는가가 이슈
- 데이터 사이언스의 역량에 따라 좌우
4. 개인 정보 비식별화
비식별기술 | 제거방법 | 예시 |
가명처리 | 식별 요소를 다른 값으로 대체 | 이순신, 39세, 서울거주, 서울대 재학 → 임꺽정, 30대, 서울거주, 국내 대학 재학 |
총계처리 | 데이터를 총합으로 표시하여 개별 데이터값을 보이지 않도록 함 | 이순신 160cm, 홍길동 170cm → A-C반 학생키 합은 230cm, 평균 키 165cm |
데이터값 삭제 | 개인 식별을 인식할 수 있는 값 삭제 | 이순신, 39세, 서울거주, 서울대 재학 → 39세, 서울거주 |
범주화 | 범주의 값으로 변환 | 이순신 39세 → 이씨, 30~40세 |
데이터 마스킹 |
개인 식별자가 보이지 않도록 처리 | 이순신 39세 → 이**, 39세 |
→ 시험에서 예시를 보고 비식별 기술을 연결하는 형태로 출제됨.
5. 빈도 높은 용어
① 데이터 레이크
- 대규모의 다양한 원시 데이터 셋을 기본 형식으로 저장하는 데이터 리포지토리 유형
② 서비타이제이션 (Servitization)
- 제품과 서비스의 결합, 서비스의 상품과 기존 서비스와 신규서비스의 겹합 협상을 포괄하는 개념
③ 딥러닝
- 여러 층을 가진 인공 신경망을 사용하고, 머신러닝 학습을 수행하는 것으로 심증 학습 기법
④ 마이 데이터
- 개인이 각종 기업, 기관에 흩어져 있는 자신의 신용 정보를 마이 데이터 사업자에게 활용하도록 하고,
이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것
⑤ 데이터 마이닝
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 짜임을 분석하여,
가치 있는 정보를 빼내는 과정
→ 시험에서 용어의 개념을 물어봄. 혹은 개념을 말하고 어떤 용어에 대한 설명인지를 물어보는 형태로 출제.
6. SQL
- SQL 은 관계 데이터베이스를 위한 표준 질의어를 의미
①데이터 정의어 (DDL)
- CREATE, ALTER, DROP
② 데이터 조작어 (DML)
- SELECT, INSERT, DELET, UPDATE
③ 데이터 제어어 (DCL)
- COMMIT, ROLLBACK, GRANT, REVOKE
→ 시험에서 용어의 유형 구분을 물어보는 형태로 출제됨.
(예) 다음 중 유형이 다른 언어는.. SELECT, INSERT, DELET, DROP 가 나오면 답은 DROP가 됨!