Data Science & Big Data

데이터과학 & 빅데이터

Data Science & Big Data

Data Science & Big Data

데이터과학 & 빅데이터

데이터 과학은 대규모 데이터에서 의미 있는 통찰을 추출하는 융합 학문입니다. 본 연구실에서는 빅데이터 플랫폼 설계 및 구축, 분산 처리 시스템, 데이터 웨어하우스, OLAP(Online Analytical Processing), 데이터 마이닝 등 데이터 과학의 핵심 분야를 연구합니다.

특히 Hadoop, Spark 기반의 대규모 분산 처리 시스템과 실시간 스트림 데이터 처리 엔진 개발에 17년 이상의 연구 경험을 보유하고 있으며, 인메모리 데이터베이스 엔진 개발 경력도 갖추고 있습니다.

Big Data
Data Science
Hadoop
Spark
Data Warehouse
OLAP
ETL
Data Mining
Stream Processing
Distributed Systems

Key Technologies

본 연구 분야에서 활용하는 핵심 기술 스택

Apache Hadoop (HDFS, MapReduce, YARN)
Apache Spark (Spark SQL, MLlib, Streaming)
Apache Kafka & Stream Processing
HBase, Hive, ZooKeeper
Data Warehouse & ETL Pipeline
OLAP & Data Cube
PostgreSQL, MySQL, MariaDB
In-Memory Database (Altibase)
Python (Pandas, NumPy, Dask)
R & RStudio

Research Topics

주요 연구 주제 및 세부 연구 분야

01

대규모 분산 데이터 처리

MapReduce 및 Spark 기반의 페타바이트급 데이터 분산 병렬 처리 기술 연구

02

실시간 스트림 데이터 처리

CEP(Complex Event Processing) 엔진 및 실시간 데이터 분석 파이프라인 구축

03

데이터 웨어하우스 & OLAP

다차원 데이터 모델링, 데이터 큐브 연산, 인터랙티브 분석 시스템 개발

04

센서 데이터베이스 시스템

IoT 센서 데이터의 효율적인 저장, 질의, 분석을 위한 DSMS(Data Stream Management System) 연구

05

데이터 품질 관리

데이터 정제, 결측치 처리, 이상치 탐지 및 데이터 품질 평가 기법 연구

주요 성과

  • 빅데이터 플랫폼 구축 관련 정부 R&D 과제 다수 수행
  • 인메모리 데이터베이스 엔진 개발 (Altibase, 3년)
  • 실시간 센서 DBMS 엔진 개발 참여 (10억원 규모)
  • 데이터 큐브 분산 병렬 계산 알고리즘 개발
  • 상권 데이터 분석 및 매출 추정 알고리즘 개발

대표 연구과제

  • 대용량 센서 스트림 데이터를 실시간으로 처리하는 개방형 센서 DBMS 개발
  • 상권정보 기반 점포수 추정 알고리즘 개발 및 데이터 구축
  • 데이터산업 창업 활성화 및 인재양성 프로그램

Related Publications

데이터과학 & 빅데이터 분야와 관련된 논문 총 63

International Journals
6

[SCIE]

OLGAVis: On-Line Graph Analysis and Visualization for Bibliographic Information Network

Sunhwa Jo, Beomjun Park, Suan Lee, and Jinho Kim. 2021.

Applied Sciences, April 2021 (IF: 2.474, JCR: Q1)

[SCIE]

Distributed graph cube generation using Spark framework

Seok Kang, Suan Lee, and Jinho Kim

Cluster Computing, October 2020 (IF: 2.469, JCR: Q2)

[SCIE]

MRTensorCube: tensor factorization with data reduction for context-aware recommendations

Svetlana Kim, Suan Lee, Jinho Kim, and Yong-Ik Yoon

The Journal of Supercomputing, October 2020 (IF: 2.469, JCR: Q2)

[SCI]

Scalable distributed data cube computation for large-scale multidimensional data analysis on a Spark cluster

Suan Lee, Seok Kang, Jinho Kim, and Eun Jung Yu

Cluster Computing, 01 Feb. 2018 (IF: 2.040)

Efficient Level-Based Top-Down Data Cube Computation Using MapReduce.

Suan Lee, Jinho Kim, Yang-Sae Moon, and Wookey Lee

Transactions on Large-Scale Data-and Knowledge-Centered Systems XXI, 17 July 2015

[SCOPUS]

Multidimensional Hierarchical Browser, Keyword Search, and Automatic Management of Photos within Smartphones.

Suan Lee, Sunhwa Jo, Ji-Seop Won, Jinho Kim, and Yang-Sae Moon.

Applied Mathematics & Information Sciences, 1 May 2015

International Conferences
34

Course Recommendation System for Company Job Placement Using Collaborative Filtering and Hybrid Model

Jaeheon Park, Suan Lee, Woncheol Lee, and Jinho Kim

13th International Conference on Data Science, Technology and Applications (DATA 2024), SciTePress, 2024

Deep Learning Model for Traffic Accident Prediction Using Multiple Feature Interactions

Namhyeon Kim, Minkyu Kim, and Suan Lee

2024 IEEE International Conference on Big Data and Smart Computing (BigComp), February 2024

Noise-Robust Sleep States Classification Model Using Sound Feature Extraction and Conversion

Sangkeun Ko, Seongho Min, Ye Shin Choi, Woo-Je Kim, and Suan Lee

2024 IEEE International Conference on Big Data and Smart Computing (BigComp), February 2024

Human Action Recognition Utilizing Doppler-Enhanced Convolutional 3D Networks

Mukhiddin Toshpulatov, Wookey Lee, Chingiz Tursunbaev, and Suan Lee

2024 IEEE International Conference on Big Data and Smart Computing (BigComp), February 2024

Privacy-Preserving of Human Identification in CCTV Data using a Novel Deep Learning-Based Method

Toshpulatov Mukhiddin, Haghighian Roudsari Arousha, Asatullaev Ubaydullo, Lee Wookey, and Suan Lee

2022 IEEE International Conference on Big Data and Smart Computing (BigComp). IEEE, 2022., January 17-20, 2022

Tracking Untrained Objects Based On Optical Flow Approach

George Jung Yup Rhee, Suan Lee, and Wookey Lee

2022 IEEE International Conference on Big Data and Smart Computing (BigComp). IEEE, 2022., January 17-20, 2022

Transformer Networks for Trajectory Classification

Keywoong Bae, Suan Lee, and Wookey Lee

2022 IEEE International Conference on Big Data and Smart Computing (BigComp). IEEE, 2022., January 17-20, 2022

Trajectory Privacy Preservationby Using Deep Learning: Transformer-TrajGAN

Ellen S. Park, Hazel H. Kim, Suan Lee and Wookey Lee

The 9th International Conference on Big Data Applications and Services (BIGDAS), 2021., November 25-27, 2021

Predicting Revenues of Seoul Commercial Alley using Neural Tensor Factorization

Minkyu Kim and Suan Lee

Big Data and Smart Computing (BigComp), 2021 IEEE International Conference on. IEEE, 2021., January 17-20, 2021

Comparison and Analysis of Embedding Methods for Patent Documents

Arousha Haghighian Roudsari, Jafar Afshar, Suan Lee, and Wookey Lee

Big Data and Smart Computing (BigComp), 2021 IEEE International Conference on. IEEE, 2021., January 17-20, 2021

CHNE: Context-aware Heterogeneous Network Embedding

Jihyeong Park, Suan Lee, and Jinho Kim

2021 IEEE International Conference on Big Data and Smart Computing (BigComp), January 17-20, 2021

Multilingual Speech Synthesis for Voice Cloning

Jiwon Seong, WooKey Lee, and Suan Lee

2021 IEEE International Conference on Big Data and Smart Computing (BigComp), January 17-20, 2021

[우수국제학술대회]

Combining Multiple Implicit-Explicit Interactions for Regression Analysis

Minkyu Kim, Suan Lee, and Jinho Kim

2020 IEEE International Conference on Big Data (IEEE BigData 2020), December 2020

Patent Prior Art Search using Deep Learning Language Model

Dylan Myungchul Kang, Charles Cheolgi Lee, Suan Lee, and Wookey Lee

24th International Database Engineering & Applications Symposium (IDEAS 2020), August 2020

A Wide & Deep Learning Sharing Input Data for Regression Analysis

Minkyu Kim, Suan Lee, and Jinho Kim

Big Data and Smart Computing (BigComp), February 19-22, 2020

Estimating Revenues of Seoul Commercial Alley Services using Tensor Decomposition & Generating Recommendation System

SungJin Park, Suan Lee, and Jinho Kim

Big Data and Smart Computing (BigComp), February 19-22, 2020

Research Issues on Generative Adversarial Networks and Applications

Toshpulatov Mukhiddin, WooKey Lee, Suan Lee, Tojiboev Rashid

The Second International Workshop on Big Data, Cloud, and IoT Technologies for Smart Cities (IWBigDataCity2020), February 19, 2020

Detecting Spammers on Social Networks using Strongly Connected Components in the Distributed Environment

Heesang Kim, Suan Lee, SungJin Park, and Jinho Kim

The 2nd International Workshop on Big Data Analysis for Smart Energy, 14 Oct. 2017

EEUM: Explorable and Expandable User-interactive Model for Browsing Bibliographic Information Networks

Suan Lee, Young-Seok You, Sungjin Park, and Jinho Kim

Proceedings of the Seventh International Conference on Emerging Databases: Technologies, Applications, and Theory, 14 Oct. 2017

Time-Sensitive Multi-Dimensional Recommender in database system

Sungjin Park, Suan Lee, and Jinho Kim

Big Data and Smart Computing (BigComp), 2017 IEEE International Conference on. IEEE, 13-16 Feb. 2017

Design and Development of Visualization Tool for Movie Review and Sentiment Analysis

Young Seok You, Suan Lee, and Jinho Kim

Proceedings of the Sixth International Conference on Emerging Databases: Technologies, Applications, and Theory. ACM, 17-19 Oct. 2016

Performance evaluation of MRDataCube for data cube computation algorithm using MapReduce.

Suan Lee, and Jinho Kim.

Big Data and Smart Computing (BigComp), 2016 International Conference on. IEEE, 18-20 Jan. 2016

A graphical administration tool for managing cloud storage system.

Jaeyong Choi, Suan Lee, Sangwon Kang, and Jinho Kim.

Big Data and Smart Computing (BigComp), 2015 International Conference on. IEEE, 9-11 Feb. 2015

MRDataCube: Data cube computation using MapReduce.

Suan Lee, Sunhwa Jo, and Jinho Kim.

Big Data and Smart Computing (BigComp), 2015 International Conference on. IEEE, 9-11 Feb. 2015

A Multi-Dimensional Analysis and Data Cube for Unstructured Text and Social Media.

Suan Lee, Namsoo Kim, and Jinho Kim.

Big Data and Cloud Computing (BdCloud), 2014 IEEE Fourth International Conference on. IEEE, 3-5 Dec. 2014

Customized Information Interface with Web Applications.

Wookey Lee, Suan Lee, and Jinho Kim.

International Conference on Database Systems for Advanced Applications. Springer, 11 July 2014

ALTIBASE CEP: Real-Time Event Processing Engine

Suan Lee, Jaenam Choi, Won Seo, Younghun Kim, Joonho Park, Kwangik Seo, and Nacwoo Kim

Proceedings of the Fifth International Conference on Emerging Databases: Technologies, Applications, and Theory. ACM, 2013

An Efficient Keyword Search over Photo Images Within Mobile Smartphones.

Suan Lee, Jinho Kim, Jiseop Won, Namsoo Kim, Johyeon Kang, and Sunhwa Jo.

Cloud and Green Computing (CGC), 2013 Third International Conference on. IEEE, 30 Sept.-2 Oct. 2013

Efficient Distributed Parallel Top-Down Computation of ROLAP Data Cube Using MapReduce.

Suan Lee, Jinho Kim, Yang-Sae Moon, and Wookey Lee.

Data Warehousing and Knowledge Discovery: 14th International Conference, DaWaK 2012, 3-6 Sept. 2012

Photo cube: An automatic management and search for photos using mobile smartphones.

Jinho Kim, Suan Lee, Ji-Seop Won, and Yang-Sae Moon.

Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on. IEEE, 12-14 Dec. 2011

Distributed Parallel Top-Down Computation of Data Cube using MapReduce

Suan Lee, Yang-Sae Moon, and Jinho Kim

Proceedings of 3rd International Conference on Emerging Databases, 25-27 Aug. 2011

MapReduce-based Distributed and Parallel Computation of Iceberg Cubes

Suan Lee, Yang-Sae Moon, and Jinho Kim

Proceedings of 2nd International Conference on Emerging Databases, 30-31 Aug. 2010

Query Optimization Techniques for Horizontal View Tables used for Multidimensional Analysis

Sung-Hyun Shin, Yang-Sae Moon, Jinho Kim, Soo-Ahn Lee, and Sang-Wook Kim

International Conference on Information and Knowledge Engineering (IKE'08), 2008

Relationship Analysis on Academic Achievement and Learning Methods during Vacation: A Data Mining Approach

Hea-Suk Kim, Yang-Sae Moon, Jinho Kim, Suan Lee, and Woong-Kee Loh

International Conference. on e-Learning, e-Business, Enterprise Information Systems, and e-Government (EEE'08), 2008

국내 학술지
15

강화학습을 활용한 소규모 언어 모델 기반 Text-to-SQL 성능 향상

김동후, 이수안

데이터베이스연구, 한국정보과학회, 2025

Step-by-Step과 Self-Debug 방식을 통한 Text-to-SQL 모델의 성능 향상

김재성, 이수안

데이터베이스연구, 한국정보과학회, 2024

통계, 머신러닝, 딥러닝 기반 시계열 모델을 이용한 원자재 가격 예측

서경식, 고상근, 이수안

데이터베이스연구, 한국정보과학회, 2023

그래프 구조를 갖는 서지 빅데이터의 효율적인 온라인 탐색 및 분석을 지원하는 그래픽 인터페이스 개발

유영석, 박범준, 조선화, 이수안, 김진호

한국빅데이터학회지, 한국빅데이터학회, 2020년 08월

Visual Cell: 바이오세포 이미지 빅데이터를 위한 이미지 분석 및 시각적 검색 시스템

박범준, 조선화, 이수안, 신지운, 유혁상, 김진호

한국빅데이터학회지, 한국빅데이터학회, 2019년 9월

자유학기제 운영계획서에 대한 텍스트 빅데이터 분석 및 요약

이수안, 박범준, 김민규, 신혜숙, 김진호

컴퓨터교육학회논문지, 한국컴퓨터교육학회, 2017년 5월

세포외 기질의 구성 및 구조의 모방을 위한 바이오 빅데이터 시스템 설계

이수안, 이솔, 유혁상, 김진호

데이터베이스연구, 한국정보과학회 데이터베이스 소사이어티, 2017년 12월 29일

대학생 진로설계 및 취업 지원을 위한 미래진로 빅데이터 정보 시스템 설계

이기준, 이수안, 구경아, 김진호

정보화 연구, 한국엔터프라이즈아키텍처학회, 2017년 06월

경영 시뮬레이션 게임을 위한 빅 데이터 분석 플랫폼 설계 및 개발

강석, 이수안, 김진호, 이강수

정보화 연구, 한국엔터프라이즈아키텍처학회, 2017년 03월

물류 산업에서 빅 데이터 분석을 위한 텍스트 시각화 도구 설계 및 개발

이강수, 이수안, 강석, 박찬민, 김진호

정보화연구, 한국엔터프라이즈아키텍처학회, 2016년 06월 30일

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석

김남수, 이수안, 조선화, 김진호

정보화연구, 한국엔터프라이즈아키텍처학회, 2014년 03월 30일

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘

이수안, 김진호

전자공학회논문지, 대한전자공학회, 2012년 09월 30일

맵리듀스를 이용한 데이터 큐브의 상향식 계산을 위한 반복적 알고리즘

이수안, 김진호

정보화연구, 한국엔터프라이즈아키텍처학회, 2012년 03월 30일

유비쿼터스 센서 네트워크에서 스트림 데이터를 효율적으로 관리하는 저장 관리자 구현

이수안, 김진호, 신성현, 남시병

전자공학회논문지, 대한전자공학회, 2009년 05월

스프레드시트 방식의 OLAP 인터페이스를 위한 시트 분할 기법

신성현, 이수안, 최훈영, 김진호, 문양세

정보통신논문지, 2007년

국내 학술대회
7

강화학습을 통한 소규모 언어 모델 기반의 효율적인 Text-to-SQL 모델

김동후, 이수안

한국컴퓨터종합학술대회, 한국정보과학회, 2025년 07월

딥러닝 기반 시계열 예측모델: 경기도 가평군 유동인구를 중심으로

고상근, 민종우, 이수안

KDBC 2022(Korean DataBase Conference 2022), 2022년 11월 04일

로봇 판단지능을 위해 인간 작업 영상을 활용한 빅데이터 시스템 설계 및 구축

장종원, 전호빈, 이수안, 김진호, 박홍성, 김미숙, 유수정, 지상훈

한국소프트웨어종합학술대회, 한국정보과학회, 2019년 12월

빅데이터 기술을 이용한 자유학기제 운영 실태 보고서 문서 분석

김민규, 이수안, 김진호, 신혜숙

한국컴퓨터종합학술대회, 한국정보과학회, 2018년 12월

빅데이터 기반의 통합적 트래픽 분석 플랫폼을 위한 저장구조 설계

장종원, 김희상, 김민규, 이수안, 김진호

한국컴퓨터종합학술대회, 한국정보과학회, 2018년 12월

초·중등 과학 교과서 용어주석 말뭉치 구축 및 검색을 위한 시스템 개발

유영석, 이수안, 김진호, 윤은정, 박윤배

한국컴퓨터종합학술대회, 한국정보과학회, 2017년 06월

유비쿼터스 센서 네트워크를 이용한 건물 화재 모니터링 시스템의 다차원 데이터베이스 설계

김진호, 이수안, 민두환, 김석훈, 남시병

학술 심포지움 논문집, 한국정보과학회, 2009년 06월