텍스트마이닝 2

[파이썬 웹크롤링] 웹크롤링&텍스트마이닝 2일차

지난 번에 공부했던 거 다시 실행 해 봤는데, 실행할 때 contents_table.find_all('ul') 여기서 자꾸 오류가 났다. 오류명은 out of index 였나 암튼 그래서 ul 태그 단 거 길이를 다 재 봤는데 ul 자체가 없는 기사가 있었나보다. print(len(category))했을 때 80개 중 한 두개가 0으로 나와서 오류가 났나보다. 그래서 코드 일부를 수정했다. 웹 크롤링 이틀차 지난 번에 크롤링한 데이터들을 데이터 프레임으로 만들기 위해서 column을 만들었었다. 수정한 코드를 넣고 크롤링을 실행한 후 기사 제목과 본문에서 개행문자를 제거 후, 추출 마찬가지로, 카테고리 정보에서 개행문자 제거하고 추출 모든 정보를 하나의 데이터 프레임에 저장한다. pandas 라이브러리에..

[파이썬 웹크롤링] 웹 크롤링&텍스트마이닝 1일차

나무위키 최근 변경 사이트인 "https://namu.wiki/RecentChanges"를 크롤링 해 보자. 크롤링을 진행하기에 앞서 필요한 라이브러리 설치. request 모듈 : python에서 HTTP 요청을 보내는 모듈 BeautifulSoup 모듈 : 웹페이지 HTML 문서를 파싱하기 위한 모듈(모듈명은 bs4) anaconda prompt창(관리자 권한으로 실행)에 - pip install requests beautifulsoup4 lxml 을 입력해 라이브러리 설치! (pandas는 이미 설치 되어 있어서 하지 않았다.) 먼저 크롤링할 주소를 정의하고, requests 라이브러리에 있는 메소드인 get으로 parameter을 보낸 후, content 속성을 이용해서 response data를..