Lecture Information

Data preprocessing is an important step in the data mining process.

The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in out-of-range values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running an analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is much irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase is more difficult. Data preparation and filtering steps can take considerable amount of processing time. Data preprocessing includes cleaning, Instance selection, normalization, transformation, feature extraction and selection, etc. The product of data preprocessing is the final training set.


Lecture Time and Location

  • 월요일, 09:00-10:15 (강원대학교 한빛관 312)
  • 목요일, 09:00-10:15 (강원대학교 한빛관 312)

Textbook

  • 자체 강의 자료

References

Grading Policy

  • 20% Attendance
  • 30% Midterm
  • 30% Final
  • 20% Assignment

Late Policy

  • 출석이 총수업 시간의 3분의 2에 미달될 경우 F 학점
  • 병원 치료 및 응급 행위로 결석한 경우 의사 소견서를 스캔 또는 촬영 후 이메일로 제출

Prerequisite

  • 컴퓨터 기본 지식

Schedule and Syllabus

# of Lecture Date Description Lecture Materials
Lecture 00 2019-03-04 강의 소개 Lecture slides
What Is Data Science?
Lecture 01 2019-03-07 데이터 구조와 종류
데이터 개념
데이터 구조
데이터 종류
Lecture slides
Lecture 02 2019-03-11
2019-03-14
데이터 전처리 개요
데이터 전처리
데이터 품질
데이터 전처리 단계
Lecture slides
Lecture 03 2019-03-18
2019-03-21
데이터 수집 1
데이터 수집 개요
수집 데이터 분류
Lecture slides
Lecture 03 2019-03-25
2019-03-28
데이터 수집 2
데이터 수집 절차
데이터 수집 방법 및 기술
Lecture slides
Lecture 04 2019-04-01
2019-04-04
데이터 정제
데이터 정제 절차
결측값 처리
잡음 제거
Lecture slides
Lecture 05 2019-04-08
2019-04-11
데이터 통합
개체 식별
중복
상관분석
데이터 값 충돌탐지 및 해결
Lecture slides
Lecture 06 2019-04-15
2019-04-18
데이터 축소
데이터 큐브 집계
속성 부분집합 선택
차원 축소
수량 축소
Lecture slides
Midterm Test 2019-04-22
2019-04-25
중간고사
Lecture 07 2019-04-29
2019-05-02
데이터 변환
정규화
수치형 데이터 이산화
범주형 데이터를 위한 개념 계층
Lecture slides
Lecture 08 2019-05-09
2019-05-13
2019-05-16
분류(Classification)
분류 개념과 종류
의사결정 트리
의사결정 트리 구축
의사결정 트리 분할
의사결정 트리 이슈
Lecture slides
Lecture 09 2019-05-20
2019-05-23
2019-05-27
연관 규칙(Association Rules)
연관 규칙
빈발 항목집합 생성
연관 규칙 생성
빈발 항목집합 표현
연관 패턴 평가
Lecture slides
Lecture 10 2019-05-30
2019-06-03
2019-06-10
군집 분석(Cluster Analysis)
군집 분석
K-means
병합형 계층 군집화
DBSCAN
군집 평가
Lecture slides
Lecture 11 2019-06-13 이상치 탐지(Anomaly Detection)
이상치 탐지
통계 접근방식
근접성 기반 이상치 탐지
밀도 기반 이상치 탐지
군집 기반 이상치 탐지
Lecture slides
Final Test 2019-06-17 기말고사
Project 2019-06-20 실전 데이터 전처리

FAQ

실습이 없는 수업입니다.

비전공자도 전공자도 들을 수 있는 수업입니다.