Natural Language Processing (NLP)

5단 분석법

정의

일반 명사

5단 분석법

순서	분석	단어	내용
1	일반 명사	Natrual	자연의, 천연의
		Language	언어
		Processing	과정, 절차
		NLP	자연어 절차?
2	고유 명사	NLP	인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 분야 중 하나
3	사용 이유	NLP	인간의 자연어와 컴퓨터의 데이터를 연결해서 처리하게 함으로써 컴퓨터의 자연어 처리 능력과 지능을 높이기 위해서
4	사용 방법	NLP	1. 텍스트 전처리 2. 텍스트 표현 3. 모델 학습 4. 모델 평가 및 튜닝
5	다른 기술과의 비교	NLP	-

정의

일반 명사

Natrual	자연의, 천연의
Language	언어
Processing	과정, 절차
NLP	자연어 절차?

Natural은 자연의, 천연의 라는 뜻을 가지고 있습니다.

Language는 언어라는 뜻을 가지고 있고, Processing은 과정, 절차라는 의미를 가지고 있습니다.

Natural Language Processing(이하 NLP)의 의미를 추측해보면, 자연어 절차라고 추측해 볼 수 있습니다.

고유 명사를 한 번 살펴볼까요?

고유 명사

NLP	인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 분야 중 하나

flowchart LR
    사용자 --> A["입력 (음성 또는 텍스트)"]
    A --> B["전처리"]
    B --> C["형태소 분석"]
    C --> V["벡터화"]
    V --> D["구문 분석"]
    D --> E["후처리"]
    E --> F["출력 (음성 또는 텍스트)"]
    F --> 사용자

    subgraph DataKnowledgeBase[Data / Knowledge Base]
        사전["형태소/어휘/전문 용어 사전"]
    end

    B --참조--> DataKnowledgeBase
    C --참조--> DataKnowledgeBase
    D --참조--> DataKnowledgeBase
Mermaid
복사

단계	설명	관계 및 데이터 흐름	예시
사용자 입력	사용자로부터 음성 또는 텍스트 입력을 받는 단계	사용자 → 입력 (음성 또는 텍스트)	사용자가 "What's the weather like today?"라고 텍스트로 질문
전처리	입력된 음성/텍스트를 처리하기 위해 전처리를 수행하는 단계	입력 (음성 또는 텍스트) → 전처리	"what's the weather like today?"로 소문자로 변환하고, "what's"를 "what is"로 표준화
형태소 분석	전처리된 데이터를 형태소(어절) 단위로 분석하는 단계	전처리 → 형태소 분석 Data / Knowledge Base (형태소/어휘/전문 용어 사전)	"what/PRON is/VERB the/DET weather/NOUN like/ADP today/NOUN"와 같이 단어를 품사 단위로 태깅
벡터화	형태소 분석된 텍스트를 숫자 벡터로 변환하는 단계	형태소 분석 → 벡터화	"What's the weather like today?" → [0, 1, 0, 2, ...] (단어 빈도 벡터)
구문 분석	형태소 분석 결과를 기반으로 구문(문장 구조)을 분석하는 단계	형태소 분석 → 구문 분석 Data / Knowledge Base (형태소/어휘/전문 용어 사전)	"What is the current state of the weather today?"와 같은 문장 구조로 해석
후처리	구문 분석 결과를 기반으로 후처리를 수행하여 최종 결과 생성	구문 분석 → 후처리	"Today's weather is sunny in Seoul"과 같이 답변을 생성
결과 출력	후처리된 결과를 사용자에게 전달하는 단계	후처리 → 출력 (음성 또는 텍스트) → 사용자	"Today's weather is sunny in Seoul"이라고 음성 또는 텍스트로 사용자에게 전달

참조에 대한 설명

참조 단계	설명
참조1 (전처리 단계)	입력된 텍스트 또는 음성 데이터를 표준화하거나 불필요한 요소를 제거하기 위해 데이터/지식 베이스를 참조합니다. 예를 들어, 특수 문자나 약어 등을 처리할 때 데이터베이스에 등록된 정보를 기반으로 표준화 작업을 수행합니다.
참조2 (형태소 분석 단계)	입력된 텍스트의 단어를 형태소 단위로 분해하고 어휘 정보를 확인하기 위해 데이터/지식 베이스를 참조합니다. 형태소 사전, 어휘 사전, 전문 용어 사전을 사용하여 정확한 형태소 분석을 수행하고, 필요한 경우 커스텀 용어 사전도 활용할 수 있습니다.
참조3 (구문 분석 단계)	형태소 분석 결과를 토대로 문장 구조를 분석하며, 문법적 규칙이나 특정 문장 구조를 이해하기 위해 데이터/지식 베이스의 문법 사전이나 규칙을 참조합니다. 이를 통해 올바른 문장 구조와 문맥을 파악하여 구문 분석을 개선합니다.

NLP는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 분야 중 하나 입니다.

NLP는 언어의 문법적 구조를 분석하고, 문장의 의미를 파악하며, 맥락을 이해하는 등 다양한 언어적 과제를 처리합니다.

예를 들어, 문서 요약, 기계 번역, 감성 분석, 질의응답 시스템, 음성 인식 등이 NLP의 대표적인 응용 분야입니다.

NLP의 목표는 컴퓨터가 사람의 언어를 이해하고, 자연스럽게 소통하며, 언어 데이터를 활용하여 유용한 정보를 제공하는 것입니다.

이를 위해서는 언어의 구조적 요소뿐만 아니라, 문화적, 사회적 맥락까지 고려해야 합니다.

NLP는 언어학, 컴퓨터 과학, 인공지능 등의 다양한 학문적 배경을 기반으로 하고 있으며, 최근 딥러닝 기술의 발전과 함께 크게 성장하고 있습니다.

'표준화'가 무엇인가요? 정규화랑 같은 단어인가요?

NLP에서 '표준화'와 '정규화'는 비슷해 보이지만 다소 차이가 있는 개념입니다.

•

표준화는 데이터의 일관성을 유지하기 위해 텍스트 형식을 일정하게 맞추는 작업을 의미합니다. 예를 들어, 대문자를 모두 소문자로 변경하거나, "u"를 "you"로 바꾸는 등의 작업이 포함됩니다.
표준화는 텍스트의 표현을 일정하게 유지하기 위해 진행되며, 특정 규칙이나 데이터베이스를 참조하여 단어의 의미가 유지되도록 변환합니다.

•

정규화는 일반적으로 데이터의 범위를 조정하여 숫자 데이터를 특정 범위(예: 0-1)로 맞추는 것을 의미합니다. 
NLP에서는 정규화라는 용어를 간혹 표준화와 비슷한 의미로 사용하기도 하지만, 정확히는 텍스트보다는 숫자형 데이터의 조정 작업에 가깝습니다.