전체 글

Garbage in, garbage out
데이터베이스・SQL

[MySQL]AWS RDS 사용해보기

이번 포스팅에서는 MySQL로 AWS RDS를 사용하는 방법에 대해 정리하겠습니다. 우선 데이터베이스를 생성하면 다음과 같은 기본 화면을 확인할 수 있습니다. 1. MySQL RDS 접속 터미널에서 다음 명령어를 입력한 뒤에 데이터베이스를 생성하면서 설정한 암호를 추가로 입력하면 MySQL RDS에 접속할 수 있습니다. mysql -h -P -u -p USE mysql; SELECT host, user FROM user; mysql 데이터베이스에서 user 테이블을 확인하면 유저 목록을 확인할 수 있습니다. 아래 그림에서 host명 %, 유저명 admin인 사용자가 바로 MySQL RDS 외부에서 접속이 가능한 사용자를 의미합니다. 참고로 RDS 외부 접속을 허용하기 위해서는 별도의 설정이 필요합니다. ..

파이썬・ML

Selenium 사용하기

Selenium 라이브러리의 본래 목적은 웹 사이트의 기능들이 정상적으로 작동하는지 테스트하기 위함입니다. 그 과정에서 명령어들을 실행함으로써 특정 이벤트를 발생시키는데 이러한 기능들은 데이터를 크롤링 할 때 사용될 수 있습니다. 자세한 내용은 공식문서를 통해 확인하고 그렇다면 지금부터 Selenium을 사용해보겠습니다. pip install selenium Chrome 웹 드라이버 생성하기 from selenium import webdriver # 크롬 드라이버 객체 인스턴스화 driver = webdriver.Chrome() driver.get('https://www.naver.com') driver.quit() get 메서드 (인수로 전달받은 URL 주소를 갖는 웹 사이트에 접속) quit 메서드 ..

파이썬・ML

Selenium 크롬드라이버 location 에러

from selenium import webdriver driver = webdriver.Chrome('') driver.get() 셀레니움을 사용하기 위해 chromedriver를 다운로드 했습니다. 하지만 드라이버를 인스턴스화하기 위해 위 코드를 실행한 결과 에러가 발생했습니다. NoSuchDriverException: Message: Unable to obtain chromedriver using Selenium Manager; Selenium 매니저가 드라이버를 인식하지 못하기 때문에 발생하는 문제였습니다. 다행히도 아래 스택오버플로우에서 문제해결책을 찾았습니다. Selenium 일정 버전(v4.6.0) 이상 사용자들은 chromedriver가 위치한 path를 명시하지 않아도 됩니다. Unab..

파이썬・ML

파이썬 Folium으로 지도 시각화하기

이번 포스팅에서는 지도를 다룰 수 있는 Folium 파이썬 라이브러리를 사용해보겠습니다. Folium을 사용하면 지도 상에 위치 정보를 시각화할 수 있습니다. 자세한 내용은 공식문서를 참고하세요. pip install folium 기본 사용법 import folium m = folium.Map(location=[45.5236, -122.6750]) m 맵 객체를 생성하기 위해서는 위도와 경도를 담은 리스트를 Map 클래스에 전달하면 됩니다. folium.Map( location=[45.5236, -122.6750], tiles='Stamen Toner', zoom_start=13 ) tiles 매개변수는 지도의 스타일을 지정합니다. 전달 가능한 tiles 매개변수의 값들은 다음과 같습니다. OpenStr..

파이썬・ML/pandas

판다스 데이터프레임과 피벗테이블

지난 포스팅의 MultiIndex 객체에 이어 이번에는 DataFrame과 피벗테이블에 대해 정리를 해보려고 합니다. 혹시 MultiIndex가 무엇이고 어떻게 다룰 수 있는지 헷갈린다면 지난 정리글을 참고하길 바랍니다. [pandas 파이썬 데이터분석]데이터프레임 MultiIndex 알아보기 이전 포스팅에서는 단일 인덱스(single index) 데이터프레임을 다루는 방법들에 대해 정리했습니다. 이번 포스팅에서는 2개 이상의 인덱스(multi index)를 갖는 데이터프레임을 다루는 방법에 대해 알 parix-data.tistory.com import pandas as pd 피벗 테이블 생성하기 DataFrame.pivot_table(index, values, aggfunc, columns, fill_..

파이썬・ML/pandas

판다스 데이터프레임 MultiIndex

이전 포스팅에서는 단일 인덱스(single index) 데이터프레임을 다루는 방법들에 대해 정리했습니다. 이번 포스팅에서는 2개 이상의 인덱스(multi index)를 갖는 데이터프레임을 다루는 방법에 대해 알아보도록 하겠습니다. MultiIndex 객체는 주로 한 열의 값이 다른 열 값의 하위 범주에 속하는 계층적 데이터에 적용하기 좋습니다. import pandas as pd import numpy as np MultiIndex 객체 이전에 하나의 요소로 구성된 인덱스 레이블로 데이터프레임의 특정 행을 참조할 수 있다는 사실을 확인한 바 있습니다. 하지만 지금부터 알아볼 인덱스 레이블은 여러 요소로 구성된다는 차이가 있습니다. 이를 통해 MultiIndex 객체는 여러 데이터 조각을 저장하는 인덱스라..

파이썬・ML/matplotlib・seaborn

matplotlib axes 조정하기(tight_layout, subplots_adjust)

이전 포스팅에서는 matplotlib 라이브러리를 사용해서 그래프를 그리기 위한 기초 단계를 정리했습니다. figure 객체를 생성한 뒤 add_subplot, subplots, subplot2grid, add_axes 메서드를 사용해서 그래프 레이아웃을 구성해봤는데요, 이번에는 그래프의 위치와 간격을 조정하는 방법에 대해 알아보도록 하겠습니다. 이전 정리글을 읽고 본 포스팅을 읽는다면 보다 더 원활한 이해가 가능합니다. 추가로 넘파이 배열을 사용하기 위해 NumPy 라이브러리를 불러오도록 하겠습니다. matplotlib 사용법 기초(figure, add_subplot, subplots, subplot2grid, add_axes) 이번 포스팅부터는 파이썬으로 데이터 시각화를 할 수 있는 matplotli..

파이썬・ML/numpy

넘파이 np.repeat(), np.tile() 배열 반복하기

지난번 포스팅에서는 배열을 합치는 API들에 대해 알아봤는데요, 이번 포스팅에서는 배열을 반복하는 API들에 대해 알아보도록 하겠습니다. np.repeat() np.repeat(a, repeats, axis) ndarray.repeat(repeats, axis) a = 3 b = np.array([1, 2, 3]) rep_a = np.repeat(a, 2) rep_b = np.repeat(b, 3) print(rep_a) # [3 3] print(rep_b) # [1 1 1 2 2 2 3 3 3] np.repeat() 메서드를 사용하면 배열을 원소별로 반복합니다. a = np.arange(4).reshape(2, 2) print(a) # [[0 1] # [2 3]] rep = np.repeat(a, 3)..

truezero
데이터 공부하는 제이슨