웹 크롤링8 Jupyter 웹크롤링 - Selenium / 활용해서 뉴스 크롤링& 로그인 Selenium이란? - Selenium은 주로 웹앱을 테스트하는데 이용하는 프레임워크. - webdriver라는 API를 통해 운영체제에 설치된 Chrome등의 브라우저를 제어. 브라우저를 직접 동작시킨다는 것은 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와지는 컨텐츠들을 가져올 수 있다는 것이다. 즉, ‘눈에 보이는’ 컨텐츠라면 모두 가져올 수 있다는 뜻이다. 우리가 requests에서 사용했던 .text의 경우 브라우저에서 ‘소스보기’를 한 것과 같이 동작하여, JS등을 통해 동적으로 DOM이 변화한 이후의 HTML을 보여주지 않는다. 반면 Selenium은 실제 웹 브라우저가 동작하기 때문에 JS로 렌더링이 완료된 후의 DOM결과물에 접근이 가능하다. selenium 웹페이지 테스트.. 2020. 6. 8. Jupyter - Login 정보 session에 담기 / 로그인 후 크롤링 / 로그인 후 내 정보 크롤링 로그인하여 데이터 크롤링하기 특정한 경우, 로그인을 해서 크롤링을 해야만 하는 경우가 존재 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등 이 경우, 로그인을 자동화 하고 로그인에 사용한 세션을 유지하여 크롤링을 진행 로그인 후 데이터 크롤링 하는 방법 endpoint 찾기 (개발자 도구의 network를 활용) id와 password가 전달되는 form data찾기 session 객체 생성하여 login 진행 이후 session 객체로 원하는 페이지로 이동하여 크롤링 - 강컴 닷컴 - endpoint 활용해서 url 작성 후 로그인 정보 입력 - session 생성 후 post로 값 넘겨주기 - 로그인 후 mypage에서 나의 point 얼마인지 가져오기 한빛 출판사 로그인 후 마일리지 가져오기.. 2020. 6. 8. 주피터(웹크롤링)- header / requests / Beautiful Soup / class로 가져오기 / 속성으로 가져오기 / 텍스트 가져오기 header 값 추가하기 - 모바일로 속여서 요청하기 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 - 모바일 모드로 들어가기 Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Mobile Safari/537.36 request 모듈 urllib 보다 유용하며 Rest API 를 지원 매개변수는 dictionary 로 구성 하며 인코딩(URL 인코딩)이 필요 없음 http://www.python-.. 2020. 6. 3. [Python] Python 가상환경 생성 및 R 주피터 노트북 연결 Anaconda Prompt 실행 (관리자 버전으로) 1. 파이썬 버전 확인 python --version # 3.7.2 2. 아나콘다 버전 확인 conda --version # 4.7.12 3. 아나콘다 update conda update conda 4. 가상환경 list conda info --envs 5. 가상환경 생성 conda create --name venv_name(넣고싶은 이름) python python=3.7 (설치 파일 버전에 맞춰 진행) * 가상환경 삭제 conda remove --name venv_name(넣고싶은 이름) --all 6. 가상환경 활성화 conda activate venv_name(넣고싶은 이름) 7. 주피터 노트북 설치 conda install jupyter not.. 2020. 6. 2. 이전 1 2 다음