주피터(웹크롤링)- header / requests / Beautiful Soup / class로 가져오기 / 속성으로 가져오기 / 텍스트 가져오기
header 값 추가하기
- 모바일로 속여서 요청하기
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36
- 모바일 모드로 들어가기
Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Mobile Safari/537.36
request 모듈
-
urllib 보다 유용하며 Rest API 를 지원
-
매개변수는 dictionary 로 구성 하며 인코딩(URL 인코딩)이 필요 없음
-
설치(Installation) : pip install requests
-
request.get() : 요청 / params
-
request.status_code :응답코드 200 이면 OK, 404 면 File Not Found 등등
-
request.text :응답내용을 읽어 옴
-
get 요청 : requests.get() 에서 params 옵션 사용
-
post 요청 : requests.get() 에서 data 옵션 사용
-
header 값 추가 : requests.get() 에서 headers 옵션 사용
BeautifulSoup
- 받아온 웹 data가 str이므로 객체로 변환 필요 -> beautiful soup 사용
- HTML 과 XML 정보 추출
- 사이트 주소 : https://www.crummy.com/software/BeautifulSoup/
- 설치(Installation) : pip install beautifulsoup4
-find() find_all()
Class로 가져오기
- class 속성 사용
- 활용
데이터 최종 list, dict 만들기
id로 검색
- find(id='값')
속성으로 검색
- find_all(attrs={'속성명':'값'}) 딕셔너리 key-value 형태로 주면 됨
태그 속 텍스트(내용)만 검색
- text 속성 사용
file:///C:/Users/205/Downloads/Web-Crawling%20(1).html