프로그래밍/웹크롤링 & 텍스트마이닝 4

[파이썬 웹크롤링] 인스타그램 크롤링 & 이미지 다운로드 받기 - 1

오늘은 인스타그램 크롤링! 아 너무 얕게만 하는 거 같아서 걱정이긴 한데 뭐 이거라도 하는 게 어디야 맞지맞지...? 오늘 할 거는 인스타그램 태그 검색하면 검색한 결과 이미지를 다운로드 받는 거를 해 볼거다! 먼저, 사용한 라이브러리는 BeautifulSoup, Selenium이다. 전에 beautifulSoup을 다뤄본 적이 있다. 새로 사용해 볼 라이브러리는 Selenium Selenium이란? - 여러 언어에서 웹 드라이버를 통해서 웹 사이트 자동화 테스트를 위한, 또는 웹 자동화를 도와주는 라이브러리 (나무위킨가 어디 출처) Selenium을 쓰는 이유는? - 동적 웹페이지로 구성 되어 있는 경우, requests 라이브러리만으로는 크롤링하기가 어렵다 - 원하는 웹 사이트가 프로그램을 통한 접근..

[파이썬 웹크롤링] 파이썬으로 네이버 영화 댓글 데이터 분석 해 보기

세상 세상 세상에 일주일 넘게 노트북 열지도 않았어.... 오엠지 초심을 잃은거야 뭐야ㅜㅡㅜ 오랜만에 공부하려니 힘들다 인스타그램(@study_zz._.one) 마지막 글 보면 네이버 영화 평점 댓글을 크롤링해 보고 싶었는데, 난 이 부분에 대한 데이터를 가지고 오고 싶었는데, 이 밑에처럼 전문가 분석?만 계속 가지고 오는거임🤦🏻‍♀️ 둘 다 div class="score_result"라서 이렇게 find도 써보고 find_all 함수도 써 봤는데도 안 되는겨 ㅋ ㅋ ㅋㅋ ㅜ ㅜ (의문인 거는 find_all 쓰면 왜 len이 1이 나오고 find 쓰면 len이 왜 3이 나오는 거지?) 진짜 이거 때문에 이틀인가를 붙잡고 있었다... 페이지 소스가 다른가 해서, 페이지 소스 보기를 했다?????? 페이지..

[파이썬 웹크롤링] 웹크롤링&텍스트마이닝 2일차

지난 번에 공부했던 거 다시 실행 해 봤는데, 실행할 때 contents_table.find_all('ul') 여기서 자꾸 오류가 났다. 오류명은 out of index 였나 암튼 그래서 ul 태그 단 거 길이를 다 재 봤는데 ul 자체가 없는 기사가 있었나보다. print(len(category))했을 때 80개 중 한 두개가 0으로 나와서 오류가 났나보다. 그래서 코드 일부를 수정했다. 웹 크롤링 이틀차 지난 번에 크롤링한 데이터들을 데이터 프레임으로 만들기 위해서 column을 만들었었다. 수정한 코드를 넣고 크롤링을 실행한 후 기사 제목과 본문에서 개행문자를 제거 후, 추출 마찬가지로, 카테고리 정보에서 개행문자 제거하고 추출 모든 정보를 하나의 데이터 프레임에 저장한다. pandas 라이브러리에..

[파이썬 웹크롤링] 웹 크롤링&텍스트마이닝 1일차

나무위키 최근 변경 사이트인 "https://namu.wiki/RecentChanges"를 크롤링 해 보자. 크롤링을 진행하기에 앞서 필요한 라이브러리 설치. request 모듈 : python에서 HTTP 요청을 보내는 모듈 BeautifulSoup 모듈 : 웹페이지 HTML 문서를 파싱하기 위한 모듈(모듈명은 bs4) anaconda prompt창(관리자 권한으로 실행)에 - pip install requests beautifulsoup4 lxml 을 입력해 라이브러리 설치! (pandas는 이미 설치 되어 있어서 하지 않았다.) 먼저 크롤링할 주소를 정의하고, requests 라이브러리에 있는 메소드인 get으로 parameter을 보낸 후, content 속성을 이용해서 response data를..