인공지능 3

[기계학습] 데이터 전처리(with scikit learn) - 데이터 실수화

● 데이터 전처리란? - 데이터의 품질을 올리는 과정 ● 데이터 전처리 과정(주요 기법) - 데이터 실수화(Data Vectorization) : 범주형 자료, 텍스트 자료, 이미지 자료 -> 컴퓨터가 이해할 수 있는 실수로 변환하는 것 - 데이터 정제(Data Cleaning) : 없는 데이터는 채우고, 잡음 데이터는 제거하고, 모순 데이터는 올바른 데이터로 교정 - 데이터 통합(Data Integration) : 여러 개의 데이터 파일을 하나로 합치는 과정 - 데이터 축소(Data Reduction) : 데이터가 과도하게 클 경우, 분석 및 학습에 시간이 오래 걸리고 비효율적이기 때문에 데이터의 수를 줄이거나(Sampling), 데이터의 차원을 축소하는 작업 - 데이터 변환(Data Transform..

[파이썬 웹크롤링] 파이썬으로 네이버 영화 댓글 데이터 분석 해 보기

세상 세상 세상에 일주일 넘게 노트북 열지도 않았어.... 오엠지 초심을 잃은거야 뭐야ㅜㅡㅜ 오랜만에 공부하려니 힘들다 인스타그램(@study_zz._.one) 마지막 글 보면 네이버 영화 평점 댓글을 크롤링해 보고 싶었는데, 난 이 부분에 대한 데이터를 가지고 오고 싶었는데, 이 밑에처럼 전문가 분석?만 계속 가지고 오는거임🤦🏻‍♀️ 둘 다 div class="score_result"라서 이렇게 find도 써보고 find_all 함수도 써 봤는데도 안 되는겨 ㅋ ㅋ ㅋㅋ ㅜ ㅜ (의문인 거는 find_all 쓰면 왜 len이 1이 나오고 find 쓰면 len이 왜 3이 나오는 거지?) 진짜 이거 때문에 이틀인가를 붙잡고 있었다... 페이지 소스가 다른가 해서, 페이지 소스 보기를 했다?????? 페이지..

[파이썬 웹크롤링] 웹 크롤링&텍스트마이닝 1일차

나무위키 최근 변경 사이트인 "https://namu.wiki/RecentChanges"를 크롤링 해 보자. 크롤링을 진행하기에 앞서 필요한 라이브러리 설치. request 모듈 : python에서 HTTP 요청을 보내는 모듈 BeautifulSoup 모듈 : 웹페이지 HTML 문서를 파싱하기 위한 모듈(모듈명은 bs4) anaconda prompt창(관리자 권한으로 실행)에 - pip install requests beautifulsoup4 lxml 을 입력해 라이브러리 설치! (pandas는 이미 설치 되어 있어서 하지 않았다.) 먼저 크롤링할 주소를 정의하고, requests 라이브러리에 있는 메소드인 get으로 parameter을 보낸 후, content 속성을 이용해서 response data를..