Deep Learning & Machine Learning
Deep learning architectures such as deep neural networks, deep belief networks, deep reinforcement learning, recurrent neural networks and convolutional neural networks have been applied to fields including computer vision, speech recognition, natural language processing, machine translation, bioinformatics, drug design, medical image analysis, material inspection and board game programs, where they have produced results comparable to and in some cases surpassing human expert performance.
Machine learning (ML) is the study of computer algorithms that improve automatically through experience and by the use of data. It is seen as a part of artificial intelligence. Machine learning algorithms build a model based on sample data, known as "training data", in order to make predictions or decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide variety of applications, such as in medicine, email filtering, speech recognition, and computer vision, where it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.
Abstract
Generative adversarial networks (GANs) have been extensively studied in recent years and have been used to address several problems in the fields of image generation and computer vision. Despite significant advancements in computer vision, applying GANs to real-world problems such as 3D face generation remains a challenge. Owing to the proliferation of fake images generated by GANs, it is important to analyze and build a taxonomy for providing an overall view of GANs. This, in turn, would facilitate many interesting applications, including virtual reality, augmented reality, computer games, teleconferencing, virtual try-on, special effects in movies, and 3D avatars. This paper reviews and discusses GANs and their application to 3D face generation. We aim to compare existing GANs methods in terms of their application to 3D face generation, investigate the related theoretical issues, and highlight the open research problems. Authors provided both qualitative and quantitative evaluations of the proposed approach. They claimed their results show the higher quality of the synthesized data compared to state-of-the-art ones.
Keywords
Generative adversarial networks; 3D face generation; Generator; Discriminator; Deep neural network; Deep learning
Abstract
Voice is one of the essential mechanisms for communicating and expressing one’s intentions as a human being. There are several causes of voice inability, including disease, accident, vocal abuse, medical surgery, ageing, and environmental pollution, and the risk of voice loss continues to increase. Novel approaches should have been developed for speech recognition and production because that would seriously undermine the quality of life and sometimes leads to isolation from society. In this review, we survey mouth interface technologies which are mouth-mounted devices for speech recognition, production, and volitional control, and the corresponding research to develop artificial mouth technologies based on various sensors, including electromyography (EMG), electroencephalography (EEG), electropalatography (EPG), electromagnetic articulography (EMA), permanent magnet articulography (PMA), gyros, images and 3-axial magnetic sensors, especially with deep learning techniques. We especially research various deep learning technologies related to voice recognition, including visual speech recognition, silent speech interface, and analyze its flow, and systematize them into a taxonomy. Finally, we discuss methods to solve the communication problems of people with disabilities in speaking and future research with respect to deep learning components.
Keywords
mouth interface; voice production; artificial larynx; EMG; biosignal; deep learning
Abstract
인간의 편의성을 높이기 위해 다양한 방면에서 도움을 주는 인공지능 모델들이 생겨나고 있지만, 장애인을 위한 인공지능 모델은 부족하며, 불편함을 근본적으로 해소하는 모델이나 서비스는 없다. 이러한 이유로 장애인의 이동권은 제한되어 있으며, 주체적 이동이 불가능한 것이 현실이다. 본 논문에서는 이러한 장애인들의 이동권에 기여하고자, 안전한 보행에 위협이 되는 요소들을 객체 인식 모델로 식별하고 이미지 캡셔닝 모델로 주위 상황에 대한 설명을 음성으로 제공하는 안전 보행 모델을 제안한다. 그리고 추가적인 데이터 셋을 활용하여 본 논문에서 제안한 안전 보행 모델을 보완하고 강화할 수 있는 방법에 대해 설명한다. 이를 통해 장애인들의 주체적인 보행을 보장하여 궁극적으로 이동권을 향상시킬 수 있을 것으로 기대한다.
Keywords
Abstract
최근 실내에서 작동하는 모바일 자율주행 로봇의 중요성은 크게 증가하고 있다. 본 논문에서는 제한된 실내 환경 조건 아래에 저비용으로도 자율주행이 가능한 모바일 로봇을 위해 저비용 차선 인식 및 제어 알고리즘을 제안하도록 제시한다. 특히 관심 영역 자동 추출, 히스토그램을 이용한 RGB 임계값 자동 추출을 통해 영상 처리 과정에서의 정확도를 높이고 연산을 줄일 수 있다. 또한, 저비용의 차선 인식을 바탕으로 보조선을 이용한 조향각 제어를 통해 자율주행에 사용한다. 주행에 있어 차선이 하나만 인식되거나 영상 중앙에 차선이 인식될 때 가중치를 주어 안전하게 주행이 이루어지도록 하였다
Keywords
Abstract
Those who want to start their own businesses must decide a location and service to start. In order to make the decision, they must know characteristics of the location and service, such as average revenues and floating population. However, it is usually very difficult to collect and analyze these characteristics. Therefore, we propose a novel deep learning model named Neural Tensor Factorization (NeuralTF) that automatically analyzes the characteristics for predicting revenues, and a method for recommending appropriate location or service to start their businesses based on the predicted revenues. NeuralTF is a combination of Tensor Factorization(TF) and Deep Neural Network(DNN). We compare NeuralTF with other machine learning models using Seoul Commercial Alley dataset. In addition, we compare performances of NeuralTF when TF and DNN components share the embedding space and when they do not.
Keywords
Recommender System, Tensor Factorization, Neural Network, Deep Learning, Neural Tensor Factorization
Abstract
Patent text mining is an important task that requires domain knowledge. The patent text is sometimes not clear and contains many ambiguous and technical words. Traditional text mining approaches are not satisfactory enough for patent text mining. In this paper, we consider various embedding techniques for patent documents and try to find how to represent the patent text for other downstream tasks such as patent classification, patent recommendation, finding similar patents, knowledge mining, etc. We compare several embedding approaches with the patent classification task. The experimental results demonstrate that using contextual word embeddings can perform better than the conventional static word embedding approaches.
Keywords
patent analysis, text classification, static word embedding, contextualized word embedding
Abstract
Regression analysis is one of the most widely used data analysis methods, and it is increasingly important to obtain accurate results from it. To obtain accurate prediction results of regression analysis through machine learning, we must select appropriate features and train various feature interactions. The combinatorial model consists of a combination of various subordinate components and is used for automatic training of various feature interactions. However, existing combinatorial models are inefficient b ecause t hey c an t rain o nly limited feature interactions and must combine several components. To overcome these limitations, this study proposes a new model called eXtreme Interaction Network (XIN). XIN can automatically learn various explicit interactions, various levels of implicit higher-order interactions, and polynomial features. We compared the proposed XIN with existing models using four datasets with different characteristics to demonstrate that the proposed model has higher performance and lower or comparable time and space complexities. Furthermore, we conducted experiments while changing the various hyper-parameters of the XIN and demonstrated the improved performance of the proposed method in various environments.
Keywords
Neural Networks, Deep Learning, Cross Network, Combinatorial Model, Feature Interactions
Abstract
컴퓨팅 파워의 발전과 새로운 알고리즘들의 연구 결과들로 큰 규모의 딥러닝 모델들이 많이 등장했다. 위 모델들을 학습하기 위해서는 많은 양의 데이터는 필수적이다. 특히 컴퓨터 비전 (Computer vision) 분야의 경우 좋은 성능은 결국 학습 데이터의 수에 직결되는 추세를 보인다. 학습 데이터를 구축하기 위해서는 해당 데이터에 대한 레이블링이 필수적이나, 사람이 직접 레이블링을 일일이 하는 것은 많은 비용을 필요로 하기에 딥러닝 모델의 성능을 올리는 데 있어서 상당 부분 장애물이 되었다. 본 논문에서는 이러한 문제점을 해결하기 위해 기존의 InsightFace의 RetinaFace를 활용하여 레이블링이 되지 않은 대용량 데이터를 받아 영역 검출 후 자동 레이블링 방식을 제안한다.
Keywords
Abstract
A patent is one of the essential indicators of new technologies and business processes, which becomes the main driving force of the companies and even the national competitiveness as well, that has recently been submitted and exploited in a large scale of quantities of information sources. Since the number of patent processing personnel, however, can hardly keep up with the increasing number of patents, and thus may have been worried about from deteriorating the quality of examinations. In this regard, the advancement of deep learning for the language processing capabilities has been developed significantly so that the prior art search by the deep learning models also can be accomplished for the labor-intensive and expensive patent document search tasks. The prior art search requires differentiation tasks, usually with the sheer volume of relevant documents; thus, the recall is much more important than the precision, which is the primary difference from the conventional search engines. This paper addressed a method to effectively handle the patent documents using BERT, one of the major deep learning-based language models. We proved through experiments that our model had outperformed the conventional approaches and the combinations of the key components with the recall value of up to '94.29%' from the real patent dataset.
Keywords
Prior Art Search, Patent Document Classification, Language Model
Abstract
스마트시티가 활성화되고 도시의 치안 문제와 개인시설의 보안 문제 등으로 방범용 CCTV, IP 카메라 등이 지속적으로 증가하고있다. 그로 인해 영상 데이터들이 계속 많아지고, 이와함께 개인정보 유출에 대한 위험성도 커지고 있다. 개인정보는 주민등록번호, 이름, 주소 등 문서나 의료 데이터에서만 유출되는 것이 아닌 영상, 이미지에서도 유출된다. 본 논문에서는 영상에서 검출되는 얼굴을 비식별화하기 위해서 얼굴을 GAN(Generative Adversarial Network)으로 생성한 얼굴과 바꾸는 모델을 제안한다. 이미지에서 개인정보로 쉽게 알아볼 수 있는 얼굴을 탐지 후 GAN을 통하여 생성한 임의의 얼굴을 해당 이미지 내의 얼굴로 대체한다. 비식별화된 이미지 데이터들은 다른 영상관련 딥러닝 훈련에 개인정보 유출 없이 사용 될 수 있다. 본 논문에서 제시한 비식별화 기술을 통하여 영상이나 이미지 내에 개인 정보의 유출을 막을 수 있다.
Keywords
Abstract
딥러닝 모델들은 높은 정확도로 인해 영상, 음성 및 자연어 처리 등 다양한 분야에 적용되며 산업에 활용 되고 있다. 이에 따라 딥러닝 모델에 대한 악의적인 공격에 관한 연구도 활발히 이루어지고 있다 .특히, 컴퓨터 비전 분야에서 영상 또는 이미지의 특성상 작은 노이즈에도 민감하게 반응할 수 있어 적대적 공격(Adversarial Attack)에 취약 하다. 만약 주민등록증이나 신용카드와 같은 개인정보를 포함하는 자료에 해당 공격이 가해진다면 다양한 인적, 물적 피해를 유발할 수 있기에 관련된 연구가 필요하다. 본 논문에서는 개인정보 자료들을 항한 적대적 공격의 유효성을 검증하기 위하여 개인 민감정보로서 쉽게 사용되어질 수 있는 차량 번호판에 적용하였다. 다양한 적대적 공격 방식을 대상으로 적대적 예제(Adversarial Example)들을 생성하였으며, 이를 통한 객체 탐지 모델의 오작동이 생길 수 있음을 검증하였다.
Keywords
Abstract
전 세계적으로 최근 신기술에 대한 특허가 다량으로 출원되는 상황이지만, 특허 심사를 처리하는 인력은 증가하는 특허 수를 따라가지 못하고 있다. 이는 특허 심사 품질을 감소시키며 그와 동시에 개인 및 기업, 더 나아가 국가의 신뢰성 저하 및 경제적 손실을 야기한다. 특히, 선행기술조사는 제한된 시간 안에서 노동집약적 고비용 작업이기 때문에 최근 급속도로 발전하고 있는 딥러닝을 적용하기에 매우 적합한 대상이 된다. 본 논문을 통해 딥러닝 기반 언어 모델 중 하나인 매우 우수한 성능을 보이는 BERT에 기반하여 선행기술조사 때에 대용량 특허 문서에서 유효 특허를 효과적으로 찾는 방법을 제안하였으며, 실험을 통해 그 성능의 우월성을 입증하였다.
Keywords
딥러닝, 인공지능, 문서 분류, 선행기술조사
Abstract
Wide & Deep model is deep learning model that jointed between of wide component and deep component for regression, recommendation, and classification. However, there is no study of regression analysis using Wide & Deep model. Also, Wide component of Wide & Deep model only deal with categorical variables and that need hand-crafted variables for efficient training. Therefore, this paper propose Lattice Wide & Deep Architecture which improve Wide & Deep model. Furthermore we show that the Lattice Wide & Deep model has better performance than Wide & Deep model in regression analysis.
Keywords
lattice wide & deep, wide & deep learning, regression analysis
Abstract
As for people who wish to start their own businesses, their concerns are whether they could survive during their operations because most stores or services in Seoul are not able to survive for more than 5 year possibly due to the poor decision of location/service to start. In order to solve this problem, using big data could be helpful to increase the survival rate. Singular Value Decomposition (SVD) has been widely used in finding the similarity between all pairs of alleys and obtaining predictions from unknown relevance scores. Since tensor decomposition is the extension of SVD for multi-dimensional data, using this method to find the similarity between all pair of alleys could be the solution of increasing survival rate. This paper aims to generate good prediction tensor, TENSORCABS, that is able to recommend users appropriate alley location to start their businesses or the appropriate services to start at the user’s desired location. Both CP and Tucker decompositions are used and compared to evaluate which method has better performance. Also, r-square for regression problem and precision & recall for top-k recommendation performance are used to evaluate the TENSORCABS. As results, actual and predicted values are good-fitted, and prediction tensor performs well on the top-k recommendation. In addition, Tucker outperforms CP for this situation. Therefore, the proposed method has advantages that can handle high-dimensional data and can use decomposition for recommendations of various perspectives. With this method, users are able to obtain recommendations of the appropriate alleys with predicted revenues for opening any business service or the appropriate services with predicted revenues on a user’s desired alley location.
Keywords
Recommendation System, Tucker Decomposition, Canonical Polyadic, Collaborative Filtering, Top-k Recommendation, Tensor, Commercial Alley
Abstract
최근 기술의 발전으로 지능형 CCTV같은 영상 수집 장치의 유용성이 대두되고 있다. 하지만 이러한 유용성에도 불구하고 개인 정보 침해 문제 때문에 영상 수집 장치의 설치나 보급에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 모자이크 등의 여러 기술이 존재하나 이러한 기술들은 필요시 복원이 불가능하거나 여러 문제점을 가지고 있다. 따라서 본 논문은 이러한 문제를 해결하기 위한 복원 가능한 영상 왜곡 모델을 제안하고, 이 구조의 특징인 왜곡 후 복윈 시 원본과 차이가 없다는 것과 시드를 통해 의도하지 않은 조작과 왜곡을 방지할 수 있는 것을 실험으로 증명하였다.
Keywords
Abstract
회귀분석은 시간에 따라 변화하는 데이터의 예측에 많이 이용되는 방법 중에 하나이다. 기존의 Wide & Deep 모델은 추천시스템에서 뛰어난 성능을 내는 방법이지만 회귀분석에서는 좋은 성능을 내지 못한다. 따라서 본 논문에서는 기존의 Wide & Deep 모델을 개선하여 회귀분석에서 잘 동작하는 Shared Wide & Deep 모델을 제안하였다. 제안한 모델을 검증하기 위해 여러 데이터들을 기존의 Wide & Deep 모델 그리고 다양한 회귀 분석 모델들과 비교하였다. 제안한 모델이 다른 모델들보다 높은 R^2 값을 가지고, 효율적으로 회귀 분석이 수행됨을 실험을 통해 확인하였다.