프로그래밍/머신러닝&딥러닝 2

[machine learning] 하이퍼파라미터 최적화(Optuna)

최적화 된 파라미터를 찾기 위해서 하이퍼파라미터 값을 조정하면서, 가장 좋은 결과가 나올 때까지 돌려봐야한다 이거 너무 번거롭고 귀찮고 시간도 오래 걸릴 때가 많다. Optuna : 하이퍼파라미터 최적화 : 하이퍼 파라미터 최적화를 도와주는 프레임워크 파라미터의 범위나 리스트를 지정해주면, trail마다 파라미터를 변경하면서 최적의 파라미터를 지정해준다. optuna는 study 개체를 기반으로 한다. 이 개체에는 필요한 파라미터 공간에 대한 정보와 sampler 방법과 pruning에 대한 정보가 포함되어 있다. from sklearn.model_selection import train_test_split from sklearn.metrics import log_loss import optuna #정의..

[기계학습] 데이터 전처리(with scikit learn) - 데이터 실수화

● 데이터 전처리란? - 데이터의 품질을 올리는 과정 ● 데이터 전처리 과정(주요 기법) - 데이터 실수화(Data Vectorization) : 범주형 자료, 텍스트 자료, 이미지 자료 -> 컴퓨터가 이해할 수 있는 실수로 변환하는 것 - 데이터 정제(Data Cleaning) : 없는 데이터는 채우고, 잡음 데이터는 제거하고, 모순 데이터는 올바른 데이터로 교정 - 데이터 통합(Data Integration) : 여러 개의 데이터 파일을 하나로 합치는 과정 - 데이터 축소(Data Reduction) : 데이터가 과도하게 클 경우, 분석 및 학습에 시간이 오래 걸리고 비효율적이기 때문에 데이터의 수를 줄이거나(Sampling), 데이터의 차원을 축소하는 작업 - 데이터 변환(Data Transform..