본문 바로가기

전체 글90

T-아카데미 강의 : Python을 활용한 웹 크롤러 만들기( 하나투어 크롤링) selenium¶ 인터파크 투어 사이트에서 여행지 입력 후 검색 -> 잠시 후 -> 결과 로그인 시 pc 웹 사이트에서 처리가 어려울 경우 -> 모바일 로그인 진입 모듈 가져오기 In [114]: %%html .CodeMirror{ font-size: 14px; font-family: consolas; In [115]: # pip install selenium 모듈 가져오기¶ In [116]: from selenium import webdriver as wd 사전에 필요한 정보 로드¶ 디비혹스 쉘, 배치 파일에서 인자로 받아서 세팅 In [117]: main_url = 'http://tour.interpark.com/' keyword = '로마' 드라이버 로드¶ 차후에 옵션을.. 2020. 7. 1.
빅데이터 탐색 6. 빅데이터 탐색 빅데이터 탐색 개요 빅데이터 탐색에 활용되는 기술 탐색 파일럿 실행 1단계 - 탐색 아키텍처 탐색 파일럿 실행 2단계 - 탐색 환경 구성 탐색 파일럿 실행 3단계 - 탐색 기능 구현 탐색 파일럿 실행 4단계 - 탐색 기능 테스트 빅데이터 탐색 개요 탐색 영역은 적재된 데이터를 가공하고 이해하는 단계 데이터 이해 => 데이터들의 패턴, 관계, 트렌드 찾기 => 탐색적 분석(EDA:Exploratory Data Analysis) 탐색 과정은 분석에 들어가기에 앞서 빅데이터의 품질과 인사이트를 확보하는 매우 중요한 단계 비정형 데이터를 정교한 후처리 작업(필터링, 클린징, 통합, 분리 등) => 정형화 데이터 탐색 결과는 곧 바로 분석 마트를 위한 기초데이터로 활용 이런 일련의 처리/탐색,.. 2020. 6. 29.
빅데이터 적재 - 실시간 로그 파일 적재 5. 빅데이터 적재 - 실시간 로그 파일 적재 빅데이터 실시간 적재 개요 빅데이터 실시간 적재에 활용되는 기술 실시간 적재 파일럿 실행 1단계 - 적재 아키텍처 실시간 적재 파일럿 실행 2단계 - 적재 환경 구성 실시간 적재 파일럿 실행 3단계 - 적재 기능 구현 실시간 적재 파일럿 실행 4단계 - 적재 기능 테스트 빅데이터 실시간 적재 개요 적재 직전에 실시간 분석 작업 수행 => 인메모리 시스템 Redis 실시간 발생하는 대규모 메세지 시속하게 영구 저장 => NoSQL => HBase 제약 사항이 적고 랜덤 액세스가 가능해져 대규모 실시간 처리 가능 빅데이터 실시간 적재에 활용할 기술 NoSQL HBase http://hbase.apache.org 하둡 기반 칼럼지향(Column-Oriented) .. 2020. 6. 29.
Bigdata - 빅데이터 적재-대용량로그 4. 빅데이터 적재 - 대용량 로그 파일 적재 빅데이터 적재 개요 빅데이터 적재에 활용되는 기술 적재 파일럿 실행 1단계 - 적재 아키텍처 적재 파일럿 실행 2단계 - 적재 환경 구성 적재 파일럿 실행 3단계 - 적재 기능 구현 적재 파일럿 실행 4단계 - 적재 기능 테스트 빅데이터 적재 개요 수집한 데이터를 어디에, 어떻게 저장 할 것인가? 적재 후 분석 방식과 업무 시스템 성격에 따라 달리 구성 분산 파일, NoSQL, 메모리 캐시등 적재 저장소 유형 P137 그림 4-2 참고 내/외부 원천 데이터 정형 데이터 : 데이터베이스(관계/계층/객체/네트워크) 반정형 데이터: HTML / XML / JSON / 서버로그 비정형 데이터: 소셜미디어, 문서, 이미지, 오디오, 비디오, IoT 적재 저장소 유형 .. 2020. 6. 22.