도순씨의 코딩일지

딥러닝 :: [논문분석] 김정미 외 1인, Word2vec을 활용한 RNN기반의 문서 분류에 관한 연구 본문

𝐂𝐎𝐌𝐏𝐔𝐓𝐄𝐑 𝐒𝐂𝐈𝐄𝐍𝐂𝐄/𝐃𝐄𝐄𝐏 𝐋𝐄𝐀𝐑𝐍𝐈𝐍𝐆

딥러닝 :: [논문분석] 김정미 외 1인, Word2vec을 활용한 RNN기반의 문서 분류에 관한 연구

도순씨 2020. 8. 6. 01:05

이번에 공모전을 준비하며 크게 도움을 받은 논문이 몇 가지 있다.

그 중에서도 큰 도움을 받았다고 할 수 있는 논문을 요약하여 소개하고자 한다.

 

 

2018년 구글이 출시한 BERT가 자연어처리 분야에서 큰 인기를 끌고 있다. 그 전에 많이 사용되었던 RNN 또한 자연어 처리를 이해하는데 큰 도움이 되리라 예상하고 읽어나가기 시작한 논문이었다. 이미지 처리 분야에서는 CNN이 강세를 보이고 있다면 RNN은 자연어 처리 분야에서 좋은 성과를 보이고 있다.

 

이 논문에서는 긴 문장을 포함한 문서에서도 정확하게 분류하기 위해서 Word2vec을 사용하여 문서 내의 단어들에 대한 신뢰성 높은 특징값을 부여하고, 이를 LSTM(Long Short Term Memory)의 입력 값으로 활용하여 문서 분류를 위한 변별적인 값을 생성한다. (Word2vec과 LSTM의 정의에 대해서는 뒤에 자세하게 다룬다) 

 

Word embedding(워드 임베딩)은 단어의 순서와 의미를 내포하는 벡터의 형태로 단어를 표현하는 기법이다. 앞에서 언급한 Word2vec이 대표적인 워드 임베딩 기법이다. 그렇다면 워드 임베딩 절차를 거치는 이유는 무엇일까? 

 

1. 문장에 대한 문법적 해석이 가능하다

2. 단어의 거리를 통해 의미론적 추론이 가능하다

3. LSTM의 학습 성능또한 높일 수 있다

 

Recurrent Nerual Network(RNN)은 입력과 출력이 각각 독립적이라고 가정한 기존의 신경망 구조에서 벗어나 동일한 활성 함수를 한 시퀀스의 모든 요소마다 적용하여 출력 결과가 이전의 계산 결과에 영향을 받는다. 활성 함수(=활성화 함수)는 다음 레이어에 바로 값을 전하지 않고 한 단계 절차를 거치는 데 사용하는 함수를 의미한다. 주로 선형함수가 아닌 비선형 함수를 사용한다.

하지만 RNN의 실제 구현에서는 비교적 짧은 시퀀스만 효과적으로 처리하는 한계점이 있는데 이를 장기 의존성 문제라고 한다. 이를 해결하기 위해서 RNN의 변형 알고리즘인 LSTM이 제안되었다. 기존 RNN의 구조에서 데이터를 계산하는 각 길목에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 각 상태 값을 메모리 공간 셀에 저장하고, 데이터를 접하는 게이트 부분을 조정하여 불필요한 연산, 오차 등을 줄여 장기 의존성 문제를 일부 해결하였다. 이러한 LSTM은 이전 단어를 보고 다음 단어가 나올 확률을 계산해주는 언어 모델이나, 자동 번역의 출력 값으로 어떤 문장을 내보는 것이 더 좋은지 결정하는 기계 번역 분야에서 좋은 성능을 나타내고 있다.

 

Word2vec을 활용하면 의미가 유사한 단어나 문법적으로 비슷한 구조를 이루는 단어는 embedding 공간 상 가까운 벡터 공간에 놓이게 된다. 이러한 데이터 전처리 방식은 자질들의 변별적인 특징을 잘 내포하여 LSTM의 학습 성능을 높일 수 있다.

 

* 출처

김정미, 이주홍. (2017). Word2vec을 활용한 RNN기반의 문서 분류에 관한 연구. 한국지능시스템학회 논문지, 27(6), 560-565.

 

 

 

Comments