전체 글 18

[OpenCV-Python] Matplotlib 사용하기

Matplotlib 라이브러리 사용하기 -> 파이썬에서 자료를 chart하거나 plot으로 시각화 하는 패키지 Matplotlib를 사용해서 이미지를 표시하는 방법을 배운다! Matplotlib를 사용하면 이미지를 확대/축소하고 저장할 수 있음. import cv2 from matplotlib import pyplot as plt file = 'vv.jpg' img = cv2.imread(file, 0) #grayscale로 이미지 로드하기 plt.imshow(img, cmap='gray', interpolation='bicubic') #interpolation => 보간법 : bicubic plt.xticks([]), plt.yticks([]) #xticks, yticks - 눈금값 plt.show()..

[OpenCV-Python] 이미지로드, 저장하기

이미지를 로드하고 저장하는 과정 import cv2 img = cv2.imread('vv.jpg') #이미지 로드 cv2.imshow('창이름', img) #이미지 열기 cv2.imread() : 이미지 로드 cv2.imshow() : 이미지 열기 cv.imwrite() : 이미지 저장 imwrite()함수는 기본적으로 PNG 형식으로 이미지 저장함 img = cv2.imread('vv.jpg', 0) #그레이스케일로 이미지 로드하기(원래 컬러 이미지였음) cv2.imshow('image', img) # 창 이름은 image로 지정하고 창 띄우기 k = cv2.waitKey(0) if k == 27: #esc키 누르면 cv2.destroyAllWindows() #창 닫기 elif k==ord('s'): ..

[기계학습] 데이터 전처리(with scikit learn) - 데이터 실수화

● 데이터 전처리란? - 데이터의 품질을 올리는 과정 ● 데이터 전처리 과정(주요 기법) - 데이터 실수화(Data Vectorization) : 범주형 자료, 텍스트 자료, 이미지 자료 -> 컴퓨터가 이해할 수 있는 실수로 변환하는 것 - 데이터 정제(Data Cleaning) : 없는 데이터는 채우고, 잡음 데이터는 제거하고, 모순 데이터는 올바른 데이터로 교정 - 데이터 통합(Data Integration) : 여러 개의 데이터 파일을 하나로 합치는 과정 - 데이터 축소(Data Reduction) : 데이터가 과도하게 클 경우, 분석 및 학습에 시간이 오래 걸리고 비효율적이기 때문에 데이터의 수를 줄이거나(Sampling), 데이터의 차원을 축소하는 작업 - 데이터 변환(Data Transform..

[파이썬 웹크롤링] 인스타그램 크롤링 & 이미지 다운로드 받기 - 1

오늘은 인스타그램 크롤링! 아 너무 얕게만 하는 거 같아서 걱정이긴 한데 뭐 이거라도 하는 게 어디야 맞지맞지...? 오늘 할 거는 인스타그램 태그 검색하면 검색한 결과 이미지를 다운로드 받는 거를 해 볼거다! 먼저, 사용한 라이브러리는 BeautifulSoup, Selenium이다. 전에 beautifulSoup을 다뤄본 적이 있다. 새로 사용해 볼 라이브러리는 Selenium Selenium이란? - 여러 언어에서 웹 드라이버를 통해서 웹 사이트 자동화 테스트를 위한, 또는 웹 자동화를 도와주는 라이브러리 (나무위킨가 어디 출처) Selenium을 쓰는 이유는? - 동적 웹페이지로 구성 되어 있는 경우, requests 라이브러리만으로는 크롤링하기가 어렵다 - 원하는 웹 사이트가 프로그램을 통한 접근..

[파이썬 웹크롤링] 파이썬으로 네이버 영화 댓글 데이터 분석 해 보기

세상 세상 세상에 일주일 넘게 노트북 열지도 않았어.... 오엠지 초심을 잃은거야 뭐야ㅜㅡㅜ 오랜만에 공부하려니 힘들다 인스타그램(@study_zz._.one) 마지막 글 보면 네이버 영화 평점 댓글을 크롤링해 보고 싶었는데, 난 이 부분에 대한 데이터를 가지고 오고 싶었는데, 이 밑에처럼 전문가 분석?만 계속 가지고 오는거임🤦🏻‍♀️ 둘 다 div class="score_result"라서 이렇게 find도 써보고 find_all 함수도 써 봤는데도 안 되는겨 ㅋ ㅋ ㅋㅋ ㅜ ㅜ (의문인 거는 find_all 쓰면 왜 len이 1이 나오고 find 쓰면 len이 왜 3이 나오는 거지?) 진짜 이거 때문에 이틀인가를 붙잡고 있었다... 페이지 소스가 다른가 해서, 페이지 소스 보기를 했다?????? 페이지..

[파이썬 웹크롤링] 웹크롤링&텍스트마이닝 2일차

지난 번에 공부했던 거 다시 실행 해 봤는데, 실행할 때 contents_table.find_all('ul') 여기서 자꾸 오류가 났다. 오류명은 out of index 였나 암튼 그래서 ul 태그 단 거 길이를 다 재 봤는데 ul 자체가 없는 기사가 있었나보다. print(len(category))했을 때 80개 중 한 두개가 0으로 나와서 오류가 났나보다. 그래서 코드 일부를 수정했다. 웹 크롤링 이틀차 지난 번에 크롤링한 데이터들을 데이터 프레임으로 만들기 위해서 column을 만들었었다. 수정한 코드를 넣고 크롤링을 실행한 후 기사 제목과 본문에서 개행문자를 제거 후, 추출 마찬가지로, 카테고리 정보에서 개행문자 제거하고 추출 모든 정보를 하나의 데이터 프레임에 저장한다. pandas 라이브러리에..

[파이썬 웹크롤링] 웹 크롤링&텍스트마이닝 1일차

나무위키 최근 변경 사이트인 "https://namu.wiki/RecentChanges"를 크롤링 해 보자. 크롤링을 진행하기에 앞서 필요한 라이브러리 설치. request 모듈 : python에서 HTTP 요청을 보내는 모듈 BeautifulSoup 모듈 : 웹페이지 HTML 문서를 파싱하기 위한 모듈(모듈명은 bs4) anaconda prompt창(관리자 권한으로 실행)에 - pip install requests beautifulsoup4 lxml 을 입력해 라이브러리 설치! (pandas는 이미 설치 되어 있어서 하지 않았다.) 먼저 크롤링할 주소를 정의하고, requests 라이브러리에 있는 메소드인 get으로 parameter을 보낸 후, content 속성을 이용해서 response data를..