머신러닝 개요
머신러닝에는 다양한 방법이 있지만,
- 지도형 머신러닝
- 비지도형 머신러닝
- 강화형 머신러닝
이 세 가지 방법이 주를 이룬다.
지도 학습
- 미리 정답 데이터를 제공한 후 거기에서 규칙과 패턴을 스스로 학습하도록 하는 방법
- 지도 학습에는 회귀(Regression)와 분류(Classification)로 나누어진다.
회귀(Regression)
- 예측하고 싶은 값 즉, 종속변수가 숫자일 때 일반적으로 머신러닝 방법 중 회귀를 사용함
- 앞에서 살펴본 길동이의 아이스아메리카노 판매량도 숫자 데이터이므로 이를 예측하는 방법은 회귀를 이용한 머신러닝 지도 학습임
분류(Classification)
- 예측하고 싶은 값, 즉 종속변수가 이름[범주화(Categorical) 변수]일 때 머신러닝 방법 중 분류를 사용함
- 예를 들어 수많은 사진 중 고양이 사진인지 아닌지를 판단하기 위해서는 고양이 사진과 고양이 사진이 아닌 것 을 분류해서 학습시켜야 함
비지도 학습
- 학습 훈련 데이터를 제공하지 않고 실행하는 머신러닝 방법
- 정답 데이터를 제공하지 않는 학습 방법을 말하며
정답을 알 수 없거나 정답이 없는 데이터를 사용할 때 비지도형 머시러닝을 시행 - 대표적으로 군집화, 연관 규칙이 있음
군집화
데이터의 관측치를 그룹핑 해주는 것
연관 규칙
데이터의 특성을 그룹핑 해주는 것
강화 학습
- 특정 상태에서 다양한 행동을 평가한 후 더 좋은 행동을 스스로 학습하는 방법
어떤 환경 안에서 정의된 주체(agent)가 현재의 상태(state)를 관찰하여 선택할 수 있는 행동(action)들 중에서 가장 최대의 보상(reward)을 가져다주는 행동이 무엇인지를 학습하는 것
학습 과정 영상
딥러닝(Deep Learning)
인공신경망(ANN, Artificial Neural Network)
여러 뉴런이 서로 연결되어 있는 구조의 네트워크
딥러닝(Deep Learning)
딥러닝은 머신러닝의 일부분이다
- 여러 은닉층을 가진 인공신경망을 사용하여 머신러닝 학습을 수행하는 기술
- 딥러닝의 ‘딥(Deep)’은 연속된 신경망 층(layer)을 깊게(deep) 쌓는다는 의미
- 이 신경망이 깊어질수록 성능이 향상됨
- 머신러닝보다 발전하여 데이터 자체를 스스로 학습하는 수준의 인공지능
- 머신러닝을 이용한 학습 과정에는 인간이 개입하지만, 딥러닝을 이용한 학습 과정에서는 기계가 스스로 해답을 찾아 분류나 예측을 수행
특징 추출(Feature Extraction)
머신러닝에서 컴퓨터가 스스로 학습하려면 사람이 인지하는 데이터를 컴퓨터가 인지할 수 있는 데이터로 변환 해야 하는데, 이 작업을 위해 데이터별로 어떤 특징을 가지는지 찾아내고 그것을 토대로 데이터를 벡터로 변환 하는 것
빅데이터
거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터
이를 3V라고도 한다
- 규모(Volume) : 단순 저장되는 물리적 데이터 양
- 속도(Velocity) : 데이터의 고도화된 실시간 처리
- 다양성(Variety) : 다양한 형태의 데이터
데이터
- 사실을 나타내는 수치
- 신호, 기호, 숫자, 문자 등으로 기록(정보를 위한 기초적인 자료)
정형 데이터(Structured data)
- 정해진 규칙(Rule)에 맞게 들어간 데이터 중 수치 만으로 의미 파악이 쉬운 데이터
- 그 값의 의미를 파악하기 쉬우며 규칙적인 값으로 데이터가 들어가는 경우를 말함
비정형 데이터(Unstructured data)
- 정형 데이터와 반대되는 단어
- 정해진 규칙 없이 의미를 쉽게 파악하기 힘든 경우
- 텍스트, 음성, 영상 데이터가 비정형 데이터 범위에 속함
- 빅데이터의 탄생은 비정형 데이터의 역할이 크게 작용
반정형 데이터(Semi-structured Data)
- 완전한 정형 데이터가 아닌 약한 정형 데이터
- 대표적으로 HTML, XML, JSON 같은 문서 포맷 형태를 포함할 수 있음
- 일반적인 데이터베이스는 아니지만 스키마를 가지고 있는 형태
빅데이터 주요 분석 알고리즘
인공 신경망(Artificial Neural Networks) 분석 기법
- 인간 두뇌의 생물학적 뉴런의 작용을 모방한 모델
- 뉴런들로부터의 입력을 일정한 함수를 거쳐 출력
- 신경망은 병렬성(parallelism)이 뛰어남
- 문자인식, 음성인식, 영상인식, 자연어 처리 등에 이용
- 딥러닝으로 발전하여 음성 인식, 이미지 인식 등 비정형 데이터 학습에 광범위하게 적용되고 있는 알고리즘
의사 결정 트리 알고리즘
- 데이터에 있는 규칙을 통해 데이터셋을 분류/예측하는 지도학습(supervised) 모델
- 데이터를 분류할 때 활용하는 알고리즘
- 트리 모양으로 데이터의 특성을 구분하여 특정한 속성을 가진 데이터가최종 단말 노드에 분류될 수 있도록 한다.
- 적용 데이터에 대한 한계가 있다
텍스트 마이닝(Text Mining)
- 빅데이터 분석에서 광범위하게 사용되는 분석 기법
- 동영상이나 메시지, 위치 정보 등 비정형 데이터에서 가치 있는 정보를 찾아내는 기술
오피니언 마이닝(Opinion Mining)
- SNS, 블로그, 카페, 게시판, 지식 검색 등 인터넷에 산재한 모든 웹 문서, 댓글 등에서 소비자들의 의견을 수집 및 분석해 제품이나 서비스 등에 대한 평판(Reputation)을 추출하는 분석 기술
- SNS을 비롯한 소셜 미디어가 미치는 영향력이 사회 전반으로 확대되면서 제품이나 서비스 구매 후기 분석을 통해 소비자들의 평가, 불만, 니즈 등 의견을 파악하고, 기업 및 브랜드의 잠재 위기를 조기에 감지할 수 있다.
소셜 네트워크 분석(Social Network Analysis)
- 사람, 그룹, 조직, 컴퓨터 및 데이터 등 객체 간의 관계 및 네트워크의 특성과 구조를 분석하고 시각화하는 첨단 분석 방법론
- 특히, 범죄 수사, 첩보, 조직 분석, 커뮤니케이션 망 분석, AIDS 확산 연구, 제약 연구 등의 분야에 활발하게 응 용됨
- 수학의 그래프 이론에 근간을 둔 분석 기법
- 소셜 네트워크 연결 구조 및 연결 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하여, 소셜 네트워크를 분석
데이터 마이닝(Data Mining)
- 대량의 데이터로부터 그 안에 숨어 있는(implicit) 새롭고(previously unknown), 가치있고(non-trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업
- 데이터마이닝을 하는 가장 큰 이유 중 하나는 '예측을 통해 최적의 의사결정을 하기 위해서' 이다.
실습
구글에서 만든 웹기반 노코드 인공지능 학습 툴
학습 이미지 데이터
이미지 업로드 후 [모델 학습시키기] 버튼 클릭 후 테스트 이미지로 확인 가능
고급
에포크(epoch) : 인공지능이 훈련데이터 전체를 1번 학습하는 과정
배치크기(batch size) : 1번 훈련할 때 처리하는 데이터의 크기
아래는 테스트 결과
모델 내보내기 버튼으로 각 코드 스니펫을 확인할 수 있다.
딥드림(DEEP DREAM)
- 인공지능을 이용하여 이미지를 자동 생성
- 구글에서 ‘딥드림(Deep Dream)’이란 인공지능 화가
- 심층신경망에서 딥러닝 알고리즘으로 학습
Stable Diffusion
- 강력한 AI 이미지 생성기
구글 코랩(Google Colab)
구글 드라이브 접속
새로 만들기
Colaboratory 검색 및 설치
본 후기는 정보통신산업진흥원(NIPA)에서 주관하는 <AI 서비스완성! AI+웹개발 취업캠프 - 프론트엔드&백엔드> 과정 학습/프로젝트/과제 기록으로 작성되었습니다.
'코딩캠프 > AI 웹개발 취업캠프' 카테고리의 다른 글
[AI 웹개발 취업캠프] 인공지능(AI) 능력시험 AICE Basic 대비 올인원 패키지 (1) (2) | 2023.08.27 |
---|---|
[AI 웹개발 취업캠프] 23.08.25 과제 (3) | 2023.08.25 |
[AI 웹개발 취업캠프] 28Day - 인공지능 응용과 최근 동향 (2) (0) | 2023.08.24 |
[AI 웹개발 취업캠프] 23.08.23 과제 (0) | 2023.08.23 |
[AI 웹개발 취업캠프] 27Day - 인공지능 응용과 최근 동향 (1) (1) | 2023.08.23 |