 
						Natural Language Processing
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Abstract
Voice is one of the essential mechanisms for communicating and expressing one’s intentions as a human being. There are several causes of voice inability, including disease, accident, vocal abuse, medical surgery, ageing, and environmental pollution, and the risk of voice loss continues to increase. Novel approaches should have been developed for speech recognition and production because that would seriously undermine the quality of life and sometimes leads to isolation from society. In this review, we survey mouth interface technologies which are mouth-mounted devices for speech recognition, production, and volitional control, and the corresponding research to develop artificial mouth technologies based on various sensors, including electromyography (EMG), electroencephalography (EEG), electropalatography (EPG), electromagnetic articulography (EMA), permanent magnet articulography (PMA), gyros, images and 3-axial magnetic sensors, especially with deep learning techniques. We especially research various deep learning technologies related to voice recognition, including visual speech recognition, silent speech interface, and analyze its flow, and systematize them into a taxonomy. Finally, we discuss methods to solve the communication problems of people with disabilities in speaking and future research with respect to deep learning components.
Keywords
mouth interface; voice production; artificial larynx; EMG; biosignal; deep learning
Abstract
인간의 편의성을 높이기 위해 다양한 방면에서 도움을 주는 인공지능 모델들이 생겨나고 있지만, 장애인을 위한 인공지능 모델은 부족하며, 불편함을 근본적으로 해소하는 모델이나 서비스는 없다. 이러한 이유로 장애인의 이동권은 제한되어 있으며, 주체적 이동이 불가능한 것이 현실이다. 본 논문에서는 이러한 장애인들의 이동권에 기여하고자, 안전한 보행에 위협이 되는 요소들을 객체 인식 모델로 식별하고 이미지 캡셔닝 모델로 주위 상황에 대한 설명을 음성으로 제공하는 안전 보행 모델을 제안한다. 그리고 추가적인 데이터 셋을 활용하여 본 논문에서 제안한 안전 보행 모델을 보완하고 강화할 수 있는 방법에 대해 설명한다. 이를 통해 장애인들의 주체적인 보행을 보장하여 궁극적으로 이동권을 향상시킬 수 있을 것으로 기대한다.
Keywords
Abstract
Patent text mining is an important task that requires domain knowledge. The patent text is sometimes not clear and contains many ambiguous and technical words. Traditional text mining approaches are not satisfactory enough for patent text mining. In this paper, we consider various embedding techniques for patent documents and try to find how to represent the patent text for other downstream tasks such as patent classification, patent recommendation, finding similar patents, knowledge mining, etc. We compare several embedding approaches with the patent classification task. The experimental results demonstrate that using contextual word embeddings can perform better than the conventional static word embedding approaches.
Keywords
patent analysis, text classification, static word embedding, contextualized word embedding
Abstract
A patent is one of the essential indicators of new technologies and business processes, which becomes the main driving force of the companies and even the national competitiveness as well, that has recently been submitted and exploited in a large scale of quantities of information sources. Since the number of patent processing personnel, however, can hardly keep up with the increasing number of patents, and thus may have been worried about from deteriorating the quality of examinations. In this regard, the advancement of deep learning for the language processing capabilities has been developed significantly so that the prior art search by the deep learning models also can be accomplished for the labor-intensive and expensive patent document search tasks. The prior art search requires differentiation tasks, usually with the sheer volume of relevant documents; thus, the recall is much more important than the precision, which is the primary difference from the conventional search engines. This paper addressed a method to effectively handle the patent documents using BERT, one of the major deep learning-based language models. We proved through experiments that our model had outperformed the conventional approaches and the combinations of the key components with the recall value of up to '94.29%' from the real patent dataset.
Keywords
Prior Art Search, Patent Document Classification, Language Model
Abstract
전 세계적으로 최근 신기술에 대한 특허가 다량으로 출원되는 상황이지만, 특허 심사를 처리하는 인력은 증가하는 특허 수를 따라가지 못하고 있다. 이는 특허 심사 품질을 감소시키며 그와 동시에 개인 및 기업, 더 나아가 국가의 신뢰성 저하 및 경제적 손실을 야기한다. 특히, 선행기술조사는 제한된 시간 안에서 노동집약적 고비용 작업이기 때문에 최근 급속도로 발전하고 있는 딥러닝을 적용하기에 매우 적합한 대상이 된다. 본 논문을 통해 딥러닝 기반 언어 모델 중 하나인 매우 우수한 성능을 보이는 BERT에 기반하여 선행기술조사 때에 대용량 특허 문서에서 유효 특허를 효과적으로 찾는 방법을 제안하였으며, 실험을 통해 그 성능의 우월성을 입증하였다.
Keywords
딥러닝, 인공지능, 문서 분류, 선행기술조사
Abstract
사회 각 분야에서 관련 주제에 대한 보다 직접적인 정보를 수집하고 분석하기 위하여 빅데이터 분석이 활발하게 활용되고 있다. 우리나라에서 사회적 관심과 파급 효과가 큰 교육 분야에서도 빅데이터 분석 기술을 활용하여 교육이나 정책의 효과를 파악하고 정책 수립에 활용하는 것에 관심이 높아지고 있다. 본 논문에서는 교육 분야에서 빅데이터 분석 기술을 활용하는 방안을 소개하고자 한다. 현재 핵심 교육정책 중의 하나인 자유학기제에 초점을 두고, 각 학교가 작성한 운영계획서에 대해 텍스트 분석과 시각화를 통하여 주요 관심 사항과 차이점에 대해 살펴보았다. 특히 서울과 강원도 지역의 중학교 자유학기제 운영계획서를 대상으로 지역적으로 주요 특성과 관심 사항이 서로 다르다는 것을 비교하였다. 본 연구는 빅데이터 분석 기술을 교육 분야의 필요와 요구에 따라 적용하고 활용하였다는 것에 큰 의의가 있다. Big data analysis is actively used for collecting and analyzing direct information on related topics in each field of society. Applying big data analysis technology in education field is increasingly interested in Korea, because applying this technology helps to identify the effectiveness of education methods and policies and applying them for policy formulation. In this paper, we propose our approach of utilizing big data analysis technology in education field. We focus on free semester program, one of the current core education policies, and we analyze the main points of interests and differences in the free semester through analysis and visualization of texts that are written on the operation reports prepared by each school. We compare regional differences in key characteristics and interests based on the free semester operation reports from middle schools particularly at Seoul and Gangwon-do regions. In conclusion, applying and utilizing big data analysis technology according to the needs and requirements of education field is a great significance.
Keywords
빅데이터, 텍스트 분석, 교육정책, 자유학기제, 시각화, Big Data, Text Analysis, Education Policies, Free Semester, Visualization
책소개
										이른바 4차산업혁명의 파도가 거세지고 코딩교육이 강조되면서 파이썬 프로그램밍 언어에 대한 관심이 높아지고 있다. 이는 실증적 사례를 통해서도 확인할 수 있다. 세계 최대 온라인 개발자 커뮤니티인 스택 오버플로(Stack Overflow)에서 프로그래밍 언어에 관하여 올라온 질문들을 언어별로 분류해 트래픽을 분석한 결과 최근 5년간 관심이 가장 폭발적으로 증가한 언어는 파이썬이다. 이런 추세하면 기존에 프로그래밍 언어의 강자인 자바(Java)나 자바스크립트(Java Script) C언어 등을 제치고 파이썬이 조만간 가장 많이 활용되는 프로그래밍 언어가 될 것으로 스택 오버플로에서는 예측하고 있다. 다른 언어에 비해서 상대적으로 배우고 쉬울 뿐 아니라 다양한 라이브러리가 오픈 소스로 공개되어 있어서 여러 분야에서 폭넓게 활용할 수 있다는 점이 그 이유일 것이다.
										파이썬이 폭넓게 활용되는 분야 중 하나가 데이터 분석 분야이다. 통계적 수치와 같은 정형 데이터는 물론 텍스트와 같은 비정형 데이터를 포함한 빅데이터가 급증하면서 데이터 마이닝 기법에서도 파이썬은 강력한 효용성을 자랑한다. 특히 블로그나 페이스북 트위터 등 SNS에 문자 텍스트가 폭발적으로 증가하고 유투브나 인스타그램 등의 대중화로 영상텍스트도 넘쳐나면서 파이썬을 활용한 텍스트분석이 각광을 받고 있다. 이것은 기업 및 브랜드 관련한 언론보도와 소비자 의견에 대한 분석이 필요한 경영실무 분야, 데이터에 대한 통계분석을 많이 활용하던 사회과학 분야, 그리고 기존의 방대한 인문자료가 디지털화되면서 그에 대한 계량적 분석이 요구되기 시작한 인문학 분야에서도 파이썬을 이용한 텍스트 마이닝에 대해서 주목하기 시작했다.
										이렇듯 기업경영과 사회과학은 물론 인문학 분야에서 파이썬을 이용한 텍스트분석에 관심이 높아지고 있지만 인문 사회과학도를 위해 파이썬 텍스트 마이닝을 쉽게 설명한 책은 찾아보기 어렵다. 통계로 특화된 프로그래밍언어인 R을 활용하여 텍스트 마이닝을 설명한 책은 있지만, 실제로 적용하려면 R을 이용한 데이터분석 책을 몇 권 사전에 읽고 선행학습을 해서 숙지를 한 후에야 가능하도록 기술되었다. 코딩 및 프로그래밍 언어에 대한 기초가 전혀 없고 통계에 대해서도 잘 모르는 인문사회과학 분야의 초보자가 접근하기에는 너무 어렵게만 보여서 오히려 엄두가 안 나서 미리 포기하게 만든다.
										인문사회과학 분야에서 파이썬 활용한 텍스트 분석에 대해서 관심이 많음에도 불구하고 마땅한 책이 없는 현실적 수요에 부응하기 위해 이 책을 집필하게 되었다. 이 책을 집필하면서 특히 염두에 둔 사항은 파이썬 텍스트 마이닝을 하려 할 때 실질적으로 이 한 권으로 가능하도록 하자는 것이다. 기존의 텍스트 마이닝 책들은 파이썬 등 코딩에 대한 기초, 통계분석 기초, 데이터 크롤링 및 자연어 처리 부분에 대해서 별도의 책으로 선행학습할 것을 전제로 구성되었다. 이 책에서는 파이썬 텍스트 분석에 앞서 선행되어야 할 부분까지 다루었다. 파이썬 설치하고 코딩하는 방법부터 시작해서, 파이썬의 방대한 영역 중에서 텍스트 분석에 꼭 필요한 부분 위주로 파이썬의 기초를 설명했다. 또 텍스트 마이닝 책에서 역시 본격적인 텍스트분석에 앞서 꼭 알아두어야 할 통계분석을 파이썬으로 어떻게 코딩하는가를 설명했다. 또 방대한 텍스트 데이터를 어떻게 수집하는가 하는 데이터 크롤링과 본격적인 데이터 분석에 앞서 텍스트 데이터를 정제하는 자연어처리를 설명했다. 이러한 내용을 숙지한 후 키워드분석, 토픽모델링, 의미연결망분석, 군집분석, 단어 임배딩 등 많이 활용되는 텍스트 분석기법을 파이썬으로 어떻게 코딩하는가를 기본 개념과 예제 중심으로 설명했다. 아무쪼록 이 책이 코딩에 문외한이지만 파이썬을 이용해서 텍스트 분석을 하려는 인문사회과학 분야의 연구자와 실무자들에게 도움이 되기를 바란다.
									
목차
										1장: 왜 파이썬을 활용한 텍스트 마이닝인가?
										2장: Python 설치환경
										3장: 파이썬 기초
										4장: 파이썬으로 하는 통계분석 기초
										5장: 텍스트자료 수집하기: 웹크롤링
										6장: 텍스트자료 정제하기: 자연어처리
										7장: 키워드분석 핵심 주제 추출하기
										8장: 의미연결망분석(SNA) 의미 연결망 분석하기
										9장: 텍스트 요약하기 
										10장: 텍스트 분류하기
										11장: 감정분석 텍스트에 표현된 감정분석하기
										12장: 마무리 
									
Abstract
빅데이터 기술은 많은 분야에서 다각적인 자료 분석이 가능하도록 활용되고 있다. 본 논문에서는 교육 분야에서 새로운 정책에 대한 효과를 평가하기 위해 빅데이터 기술을 활용하였다. 전국 중학교에서 운영되고 있는 자유학기제의 운영 실태 분석을 위하여 비정형 데이터 분석과 시각화를 통하여 주요 관심사항과 차이점에 대해서 살펴보았다. 특히 지역적으로 중요 특성과 관심 사항이 다르다는 것을 부산과 전남을 중심으로 살펴보았다. 본 연구는 교육 전문가와 함께 필요와 요구에 따라 빅데이터 분석 기술을 적용하였다는 것에 의미가 있다.
Keywords
##
Abstract
초중등 학교의 과학 교수학습 상황에서 과학용어는 교사와 학생 모두에게 많은 어려움을 야기하는 주요한 요인 가운데 하나이다. 학생의 수준에 맞게 과학 용어를 사용하고 그 과학 용어의 의미를 정확하게 설명하는 것이 중요하다. 이를 위해 초∙중등 교육과정에서 사용하는 과학 교과서에 있는 과학 용어들을 추출하고, 교과서 내에서 그 과학 용어의 용례와 정의를 파악하는 것이 매우 효과적인 방법이다. 이 논문에서는 6차, 7차, 및 2009 개정 교육 과정의 모든 과학 교과서에서 과학용어 말뭉치를 추출하고, 이들용어들의 출현빈도와 출현한 문장들과 교과서 정보들을 데이터베이스에 저장한다. 과학용어 말뭉치는 표준국어대사전과 교과서의 품사 매칭을 이용해 과학용서를 식별한다. 이렇게 구축된 과학용어 데이터베이스를 이용하여 과학용어 키워드 질의에 대해 교과서 내의 예문과 과목이나 교육과정별 정보를 시각회된 차트로 제공하는 검색 시스템을 개발한다. 이 시스템을 활용하여, 원하는 과학용어에 대해 학년별/과목별 교과서에 대한 예문이나 교육과정에 대해 파악할 수 있으며, 학생 수준에 맞춰 학습 보조자료로 활용하거나 연구 보조자료 등으로 편리하게 활용할 수 있을 것이다.
Keywords
유비쿼터스 센서 네트워크, 스트림 데이터, 저장 관리자, 경동 시간 구조, 데이터 축소
Abstract
Typically, application or website shows the comments of people in a list format. This list means in seeing chronologically or log of recommends. However, it is difficult to grasp because of reading and knowing all countless comments of the topic at a glance. Therefore, it requires a lot of ability to grasp information at a glance via picking only the important information. In this paper, we design and develop a visualization tool that can identify a number of reviews containing comments on the movie at a glance. Review assumed to be extracted from the Amazon and IMDb that are both subjective information. The tool that we develop visualizes sentimental analysis of the review on pre-made Sentiment Dictionary with objective information of a movie. Our proposed system can search and display one or more movies. Users can determine the relationship between movies by clustering sentiment of positive/negative reviews and movie's factors. In the future, based on all the reviews on Amazon and grasp the reviews on a variety of movies and products, as well, it will be used as tools to help users of a rational choice.
Keywords
Review DAta, Sentiment Analysis, Visualization
Abstract
스마트폰의 출현으로 SNS, 위치정보, 각종 로그들을 포함에 방대한 양의 데이터가 쌓이고 있다. 이런 데이터들을 활용하여 가치있는 정보로 활용하기 위해 빅 데이터 기술에 대한 관심을 가지고 있다. 사람들이 빅 데이터 처리를 통해 나온 결과를 쉽게 알아볼 수 있는 시각화 기술에 대해서도 관심이 뜨겁다. 본 논문에서는 경영 시뮬레이션 게임에서 의사 결정을 위해서 빅 데이터 분석을 수행하였고 가공처리되서 나온 데이터들을 이용해 시각화 도구를 개발하였다. 시각화 도구에는 워드 클라우드, 단어 빈도 분석, 네트워크 그래프 분석, 군집 분석 등 다양한 시각화 도구가 있다. 이런 시각화 도구를 통해 사용자는 앞서 말한 가치 있는 정보를 확인 할 수 있다. 또한 사용자는 데이터를 필터링하거나 단어의 빈도수 또는 단어의 개수를 조절하거나 군집의 개수를 설정하여 사용자가 좀 더 쉽게 이해 할 수 있도록 시각화를 다시 할 수 있다. 이를 통해 효과적이고 탄력적인 경영과 의사 결정에 도움을 줄 수 있다. SNS with the advent of smart phones, position information, has accumulated a huge amount of data to include a variety of log. By utilizing such data, in order to take advantage of the information that is of value, we have an interest in big data technology. People are hot interest in big data processing through the you can find the results that have been briefly out of visualization technology. In this paper, we run the big data analysis for decision-making in the management simulation game, we were using the data that came out be processed to develop a visualization tool. The visualization tool, the analysis of the word cloud, word of the frequency of use, network graph analysis, cluster analysis, etc., there are a variety of visualization tools. Using such visualization tools, the user can confirm the valuable information previously described. Also, users can filter the data, or to adjust the number of words in the frequency and the word, by setting the number of congestion, the user can repeat the visualization may be more easily understood. Thus, it is possible to support effective and flexible management and decision making.
Keywords
물류 데이터, 데이터 크롤러, 빅 데이터 분석, 텍스트 시각화, Logistics Data, Data Crawler, Big Data Analysis, Text Visualization
Abstract
Recently, unstructured data like texts, documents, or SNS messages has been increasingly being used in many applications, rather than structured data consisting of simple numbers or characters. Thus it becomes more important to analysis unstructured text data to extract valuable information for usres decision making. Like OLAP (On-Line Analytical Processing) analysis over structured data, Multi-dimensional analysis for these unstructured data is popularly being required. To facilitate these analysis requirements on the unstructured data, a text cube model on multi-dimensional text database has been proposed. In this paper, we extended the existing text cube model to incorporate TF-IDF (Term Frequency Inverse Document Frequrency) and LM (Language Model) as measurements. Because the proposed text cube model utilizes new measurements which are more popular in information retrieval systems, it is more efficient and effective to analysis text databases. Through experiments, we revealed that the performance and the effectiveness of the proposed text cube outperform the existing one.
Keywords
language model, OLAP, Multi-dimensional analysis, text cube, data cube, text databases, information retrieval, TF-IDF
Abstract
웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹 상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져있어 이를 적절히 분석 할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데 이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대 해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용 되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스 트큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수 (Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대 한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중 심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템 에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다. As the advance of WWW, unstructured data including texts are taking users' interests more and more. These unstructured data created by WWW users represent users' subjective opinions thus we can get very useful information such as users' personal tastes or perspectives from them if we analyze appropriately. In this paper, we provide various analysis efficiently for unstructured text documents by taking advantage of OLAP (On-Line Analytical Processing) multidimen-sional cube technology. OLAP cubes have been widely used for the multidimensional analysis for structured data such as simple alphabetic and numberic data but they didn't have used for unstructured data consisting of long texts. In order to provide multidimensional analysis for unstructured text data, however, Text Cube model has been proposed precently. It incorporates term frequency and inverted index as measurements to search and analyze text databases which play key roles in information retrieval. The primary goal of this paper is to apply this text cube model to a real data set from in an Internet site sharing hotel information and to provide multidimensional analysis for users' reviews on hotels written in texts. To achieve this goal, we first build text cubes for the hotel review data. By using the text cubes, we design and implement the system which provides multidimensional keyword search features to search and to analyze review texts on various dimensions. This system will be able to help users to get valuable guest-subjective summary information easily. Furthermore, this paper evaluats the proposed systems through various experiments and it reveals the effectiveness of the system.
Keywords
다차원 텍스트 데이터베이스, 텍스트 큐브, 온라인 다차원 분석, 사용자 리뷰 분석, 키워드 검색 Multi-dimensional Text Databases, Text Cubes, On-Line Analytical Processing (OLAP), Usres' review analysis, keyword search
Abstract
Nowadays, it is popular for users to take photos through mobile devices like smartphones. In order to help users to search lots of photos within their smartphones easily, this paper develops a mobile application software system supporting a keyword search feature over photos just like searching web pages in the Internet. When a user takes a photo, the system extracts its meta-data of date/time and GPS as well as its various annotations automatically (e.g., mailing address, place names, event names, weather, etc.). Based on the annotations, we implemented a keyword search function over photos in smartphones. With this system, users can easily search photos with keyword conditions, even though they don't give any additional information.
Keywords
Keyword Search Over Databases, Mobile Application, Smartphone, Image Retrieval, Image Annotation, Keyword Search