Python 4

셀레니움 - 인터넷 익스플로러 크롤링을 위한 사전 준비

웹크롤링을 위한 대표적인 라이브러리 셀러니움 셀레니움은 IE, 크롬, FF, 엣지를 지원한다. 대부분 크롬을 쓰겠지만, 인터넷 익스플로러를 써야만 하는 곳도 있다. 따라서 셀레니움을 이용한 인터넷 익스플로러 크롤링 사전 준비 방법을 소개한다. 셀레니움 IE 드라이버 다운로드 아래에서 셀레니움 익스플로러 드라이버를 다운 받는다. [https://selenium-release.storage.googleapis.com/index.html] IE는 32,64비트 관계없이 32비트를 권장한다. 드라이버 버전을 잘 보고 맞춰서 다운 받아야 한다. 보호모드 사용 끄기 인터넷옵션 - 보안 - 인터넷, 로컬인트라넷, 신뢰할수있는 사이트, 제한한 사이트 모두 ‘보호모드사용(IE를 다시 시작해야함)’ 체크해제 인터넷옵션 -..

Python 2021.02.10

코드 실행 시간 측정

여러 방법이 있지만 제일 많이 쓰는 방법은 time 및 datetime 모듈을 이용해서 시:분:초 로 나타내는 것일 것이다. import time import datetime # 현재 시작 측정 (초단위로 표현) start_time = time.time() '''수행할 코드 삽입''' # 코드 수행 시간 측정 (초단위로 표현) RunTime = time.time()- start_time # 코드 수행 시간을 [시:분:초, 나머지]로 표현 RunTime_pretty1 = datetime.timedelta(seconds=RunTime) print(RunTime_pretty2) # 코드 수행 시간을 [시:분:초]로 표현 RunTime_pretty2 = str(datetime.timedelta(seconds=R..

Python 2021.02.09

데이터프레임 중간 생략없이 보는 방법

주피터 노트북을 활용해 파이썬을 사용하고, 데이터 프레임을 다루다보면 큰 데이터프레임의 경우 중간 행이나, 열이 ... 으로 생략되는 경우가 있다. ... 생략되는 부분을 모두 출력해보자. print(df)에서 ...으로 생략되는거 없애고 전부 출력하기 import pandas as pd # 최대 줄 수 설정 pd.set_option('display.max_rows', 500) # 최대 열 수 설정 pd.set_option('display.max_columns', 500) # 표시할 가로의 길이 pd.set_option('display.width', 1000) 표시할 가로의 길이는 character의 개수를 의미(?) 한편 아래와 같은 명령어를 이용하면 해당 DatatFrame 옵션 모두 볼 수 있다. ..

Python 2021.02.04

파이썬 오프라인 환경에서 패키지 관리하기

혼자서 연습할 때는 아무 문제가 없지만 회사의 규모가 조금만 커져도 망분리 문제 때문에 파이선 패키지 관리하기가 어려워진다. 업무용 망에서는 인터넷이 차단되어 있고 때문에 pip install 을 통한 패키지 인스톨이 불가능하다. 그리고 R과는 다르게 파이썬은 패지키 폴더를 그냥 복사+붙여넣기 하는 것만으로는 패키지 인식이 안된다. 결국 패키지 목록을 whl파일로 다 받아서(의존성 패지키 포함) pip install 으로 인스톨 해주어야 제대로 돌아간다. 결국 오프라인 환경에서 패키지 관리는 다음 세 단계를 거쳐야 한다 1. 설치가 필요한 패키지 목록 만들기 (인터넷망) 당연히 여기의 패키지 목록에는 의존성 패키지 목록이 포함된다. 때문에 필요한 패키지들을 일일히 확인하는 것보다는 아래의 순서를 따르는것..

Python 2021.01.11