본문 바로가기

2020.06.082

Jupyter 웹크롤링 - Selenium / 활용해서 뉴스 크롤링& 로그인 Selenium이란? - Selenium은 주로 웹앱을 테스트하는데 이용하는 프레임워크. - webdriver라는 API를 통해 운영체제에 설치된 Chrome등의 브라우저를 제어. 브라우저를 직접 동작시킨다는 것은 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와지는 컨텐츠들을 가져올 수 있다는 것이다. 즉, ‘눈에 보이는’ 컨텐츠라면 모두 가져올 수 있다는 뜻이다. 우리가 requests에서 사용했던 .text의 경우 브라우저에서 ‘소스보기’를 한 것과 같이 동작하여, JS등을 통해 동적으로 DOM이 변화한 이후의 HTML을 보여주지 않는다. 반면 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM결과물에 접근이 가능하다. selenium 웹페이지 테스트.. 2020. 6. 8.
Jupyter - Login 정보 session에 담기 / 로그인 후 크롤링 / 로그인 후 내 정보 크롤링 로그인하여 데이터 크롤링하기 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행 로그인 후 데이터 크롤링 하는 방법 endpoint 찾기 (개발자 도구의 network를 활용) id와 password가 전달되는 form data찾기 session 객체 생성하여 login 진행 이후 session 객체로 원하는 페이지로 이동하여 크롤링 - 강컴 닷컴 - endpoint 활용해서 url 작성 후 로그인 정보 입력 - session 생성 후 post로 값 넘겨주기 - 로그인 후 mypage에서 나의 point 얼마인지 가져오기 한빛 출판사 로그인 후 마일리지 가져오기.. 2020. 6. 8.