본문 바로가기

분류 전체보기90

####주피터 실습 - 식신로드 서울지역 만점 식당 뽑아오기 식신로드 서울지역 '만점 식당' 20 선 뽑아오기 상호명, 전화번호, 주소 https://www.wikitree.co.kr/articles/217101 식신로드, 역대 서울지역 '만점 식당' 20선 케이블채널 Y-STAR '식신로드' 출연자들이&숟가락 평가에서&5점 만점 www.wikitree.co.kr 1. import 2. BeautifulSoup 3. 예외 처리해서 식당명 가져오기 ->list에 담아주기 4. 식당 전화번호 뽑아오기 ->list에 담아주기 5. 식당 주소 뽑아오기 ->list에 담아주기 6. 각 리스트를 전체 리스트에 담아주기 - 반복문 사용 2020. 6. 9.
Jupyter 웹크롤링 - Selenium / 활용해서 뉴스 크롤링& 로그인 Selenium이란? - Selenium은 주로 웹앱을 테스트하는데 이용하는 프레임워크. - webdriver라는 API를 통해 운영체제에 설치된 Chrome등의 브라우저를 제어. 브라우저를 직접 동작시킨다는 것은 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와지는 컨텐츠들을 가져올 수 있다는 것이다. 즉, ‘눈에 보이는’ 컨텐츠라면 모두 가져올 수 있다는 뜻이다. 우리가 requests에서 사용했던 .text의 경우 브라우저에서 ‘소스보기’를 한 것과 같이 동작하여, JS등을 통해 동적으로 DOM이 변화한 이후의 HTML을 보여주지 않는다. 반면 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM결과물에 접근이 가능하다. selenium 웹페이지 테스트.. 2020. 6. 8.
Jupyter - Login 정보 session에 담기 / 로그인 후 크롤링 / 로그인 후 내 정보 크롤링 로그인하여 데이터 크롤링하기 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행 로그인 후 데이터 크롤링 하는 방법 endpoint 찾기 (개발자 도구의 network를 활용) id와 password가 전달되는 form data찾기 session 객체 생성하여 login 진행 이후 session 객체로 원하는 페이지로 이동하여 크롤링 - 강컴 닷컴 - endpoint 활용해서 url 작성 후 로그인 정보 입력 - session 생성 후 post로 값 넘겨주기 - 로그인 후 mypage에서 나의 point 얼마인지 가져오기 한빛 출판사 로그인 후 마일리지 가져오기.. 2020. 6. 8.
주피터(웹크롤링)- header / requests / Beautiful Soup / class로 가져오기 / 속성으로 가져오기 / 텍스트 가져오기 header 값 추가하기 - 모바일로 속여서 요청하기 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 - 모바일 모드로 들어가기 Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Mobile Safari/537.36 request 모듈 urllib 보다 유용하며 Rest API 를 지원 매개변수는 dictionary 로 구성 하며 인코딩(URL 인코딩)이 필요 없음 http://www.python-.. 2020. 6. 3.