Data preprocessing is an important step in the data mining process.
The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in out-of-range values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running an analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is much irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase is more difficult. Data preparation and filtering steps can take considerable amount of processing time. Data preprocessing includes cleaning, Instance selection, normalization, transformation, feature extraction and selection, etc. The product of data preprocessing is the final training set.
# of Lecture | Date | Description | Lecture Materials |
---|---|---|---|
Lecture 00 | 2019-03-04 | 강의 소개 |
Lecture slides What Is Data Science? |
Lecture 01 | 2019-03-07 |
데이터 구조와 종류 데이터 개념 데이터 구조 데이터 종류 |
Lecture slides |
Lecture 02 | 2019-03-11 2019-03-14 |
데이터 전처리 개요 데이터 전처리 데이터 품질 데이터 전처리 단계 |
Lecture slides |
Lecture 03 | 2019-03-18 2019-03-21 |
데이터 수집 1 데이터 수집 개요 수집 데이터 분류 |
Lecture slides |
Lecture 03 | 2019-03-25 2019-03-28 |
데이터 수집 2 데이터 수집 절차 데이터 수집 방법 및 기술 |
Lecture slides |
Lecture 04 | 2019-04-01 2019-04-04 |
데이터 정제 데이터 정제 절차 결측값 처리 잡음 제거 |
Lecture slides |
Lecture 05 | 2019-04-08 2019-04-11 |
데이터 통합 개체 식별 중복 상관분석 데이터 값 충돌탐지 및 해결 |
Lecture slides |
Lecture 06 | 2019-04-15 2019-04-18 |
데이터 축소 데이터 큐브 집계 속성 부분집합 선택 차원 축소 수량 축소 |
Lecture slides |
Midterm Test | 2019-04-22 2019-04-25 |
중간고사 | |
Lecture 07 | 2019-04-29 2019-05-02 |
데이터 변환 정규화 수치형 데이터 이산화 범주형 데이터를 위한 개념 계층 |
Lecture slides |
Lecture 08 | 2019-05-09 2019-05-13 2019-05-16 |
분류(Classification) 분류 개념과 종류 의사결정 트리 의사결정 트리 구축 의사결정 트리 분할 의사결정 트리 이슈 |
Lecture slides |
Lecture 09 | 2019-05-20 2019-05-23 2019-05-27 |
연관 규칙(Association Rules) 연관 규칙 빈발 항목집합 생성 연관 규칙 생성 빈발 항목집합 표현 연관 패턴 평가 |
Lecture slides |
Lecture 10 | 2019-05-30 2019-06-03 2019-06-10 |
군집 분석(Cluster Analysis) 군집 분석 K-means 병합형 계층 군집화 DBSCAN 군집 평가 |
Lecture slides |
Lecture 11 | 2019-06-13 |
이상치 탐지(Anomaly Detection) 이상치 탐지 통계 접근방식 근접성 기반 이상치 탐지 밀도 기반 이상치 탐지 군집 기반 이상치 탐지 |
Lecture slides |
Final Test | 2019-06-17 | 기말고사 | |
Project | 2019-06-20 | 실전 데이터 전처리 |
실습이 없는 수업입니다.
비전공자도 전공자도 들을 수 있는 수업입니다.