본문 바로가기

전체 글99

Attention Is All You Need(Transformer) 배경 및 문제의식기존의 기계 번역 및 시퀀스 모델링에서는 RNN(Recurrent Neural Network)과 CNN(Convolutional Neural Network)을 많이 사용했습니다. 하지만 RNN은 순차적으로 학습해야 하므로 병렬처리가 어렵고, 긴 문장에서 장기 의존성(long-term dependency)을 학습하기 어렵다는 단점이 있습니다. 해당 논문은 recurrence와 convolution 을 전부 제외하고 오직 attention mechanism에만 기반한 Transformer라는 간단한 모델을 제안하는데, 초록에서 제안한 모델의 특징은 아래와 같이 요약할 수 있습니다. 어텐션 기법으로 재귀적으로 각각의 시퀀스를 처리하지 않고 오직 행렬 곱을 이용해서 병렬적으로 시퀀스 데이터를 처.. 2025. 3. 18.
“Sequence to Sequence Learning with Neural Networks” (Ilya Sutskever et al., 2014) 논문 개요제안된 구조: Seq2Seq (Sequence to Sequence)핵심 아이디어: 두 개의 LSTM (Encoder & Decoder)을 사용하여 가변 길이 시퀀스를 다른 시퀀스로 변환적용 문제: 영어 → 프랑스어 기계 번역 (WMT’14 데이터셋)성과: 기존 phrase-based SMT보다 높은 BLEU 점수 획득Sequence to Sequence란?Seq2Seq는 하나의 시퀀스(입력)를 받아, 또 다른 시퀀스(출력)로 변환하는 모델 구조입니다.Seq2Seq 구조Encoder LSTM: 입력 문장 x₁, x₂, ..., xₙ을 읽어들여 고정된 벡터 표현 v로 압축Decoder LSTM: v를 입력받아 출력 문장 y₁, y₂, ..., yₘ 생성[입력 시퀀스] → [Encoder RNN] .. 2025. 3. 18.
“Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation” (Kyunghyun Cho et al., 2014) 배경 및 목적 : RNN Encoder–Decoder + GRU존 통계적 기계 번역(SMT)은 단순한 통계 기반, 고정된 표현, 순서 정보 미포함 등 한계가 있었음이를 개선하기 위해 가변 길이 시퀀스를 다룰 수 있는 RNN 기반 Encoder–Decoder 구조를 제안더 나아가 학습이 쉽고 계산이 간단한 GRU(Gated Recurrent Unit)을 함께 도입함 핵심 제안 RNN Encoder–Decoder 구조Encoder RNN: 입력 문장(x₁, ..., xₜ)을 **고정 길이 벡터(c)**로 인코딩Decoder RNN: 이 벡터(c)를 기반으로 출력 문장(y₁, ..., yₜ') 생성즉, 시퀀스 → 벡터 → 시퀀스로의 변환 구조GRU 셀 도입 (LSTM 간소화 버전)기존 LSTM보다 더 간단하고.. 2025. 3. 18.
LSTM: long short-term memory 배경 및 목적 기존 Vanilla RNN은 Time Interval이 큰 데이터에 대한 지식을 잘 저장하지 못하는 한계점이 존재한다. 이러한 한계점은 Error back flow(back propagation)과정이 정보를 충분히 전달하지 못하기 때문이고, 수 많은 Layer를 지나면서 Weight가 Vanishing 되기 때문이다.    본 논문에서는 이러한 문제점을 해결할 수 있는 novel, efficient gradient-based method인 LSTM(Long Short-Term Memory)를 제안한다.  LSTM에서는 특정 정보가 Gradient에 안좋은 영향을 미치지 않는 한, 약 1000번의 time step 이상의 interval에도 정보를 소실하지 않고 효과적으로 정보를 전달할 수.. 2025. 3. 18.
Thanos Call 프로젝트 프로젝트 Thanos CallThanos Call 소개타노스콜은 자연어처리를 이용한 비지니스 인사이트 도출 서비스입니다. 저희 팀 타노스는 업무량은 절반으로 줄이고 효율은 두배로 높일 수 있는 서비스 Thanos Call을 기획하였습니다. 타노스 콜은 기업의 데이터를 이용하여 회원 정보, 구매 물류 관리 등의 정보를 표와 그래프를 이용해 정보를 도식화 하여 제공합니다.또한 CS 데이터를 수집하여 상담원 콜 수, 및 응대 시간, 만족도 등의 통계 데이터를 시각화합니다. 이를 통해 기업은 회원 구성, 판매 상품, 트렌드, CS 등의 통계 데이터를 통해 인사이트를 도출하고 업무의 방향성을 잡아갈 수 있습니다.또한 타노스 콜을 통해 상담한 대화 내용은 모델을 통해 자동으로 요약합니다. 요약한 내용은 자동으로 문.. 2025. 3. 16.
Alexnet 구현하기 1. AlexnetAlexNet은 2012년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 우승한 딥러닝 모델로, 딥러닝의 대중화를 이끈 중요한 합성곱 신경망(CNN)입니다. 이 모델은 8개의 레이어(5개의 합성곱 레이어와 3개의 완전 연결 레이어)로 구성되어 있으며, ReLU 활성화 함수, 드롭아웃(dropout), 데이터 증강(data augmentation) 등을 사용해 과적합을 방지하고 학습 성능을 향상시켰습니다. AlexNet은 대규모 데이터셋과 GPU 병렬 연산을 활용해 1,000개의 클래스 분류 문제에서 top-1, top-5 error rates가 각각 37.5%, 17.5%로 뛰어난 성능을 보여, 컴퓨터 비전에서 딥러닝이 표준 .. 2025. 3. 5.