본문 바로가기

전체 글77

소상공인시장진흥공단_상가정보 데이터셋 1. 공공데이터공공데이터(data.go.kr)는 대한민국 정부에서 운영하는 공공데이터 포털로, 공공기관이 보유한 다양한 데이터를 국민과 기업, 개발자 등에게 개방하여 활용할 수 있도록 제공하는 플랫폼입니다. 데이터를 파일 형식(Excel, CSV 등)으로 다운로드하거나, API 형태로 실시간 연동하여 사용할 수 있습니다. 1. "소상공인시장진흥공단_상가(상권)정보"을 검색 후  압축파일을 다운로드합니다.2. 압축을 해제하고 "서울" csv 데이터를 구글드라이브에 업로드합니다.https://www.data.go.kr/data/15083033/fileData.do(상호명, 업종코드, 업종명, 지번주소, 도로명주소, 경도, 위도 등)[데이터 변경 안내] 1. 상권업종분류 : 표준산업분류 기반 업" data-o.. 2025. 1. 17.
online Retail 데이터셋 - 캐글 1. 캐글캐글(Kaggle)은 데이터 과학자와 머신러닝 엔지니어들이 학습, 협업, 경쟁할 수 있는 온라인 플랫폼입니다. 구글에 소속된 이 플랫폼은 다양한 데이터셋과 머신러닝 문제를 제공하며, 사용자들이 자신의 모델을 개발하고 성능을 경쟁적으로 평가받을 수 있는 경진대회도 열립니다. 초보자는 데이터를 다루는 실습을 하고, 경험 많은 전문가들은 포트폴리오를 확장하거나 상금을 받을 기회를 얻을 수 있습니다. 또한, 커뮤니티 포럼과 튜토리얼, 노트북 공유를 통해 지식을 공유하고 학습할 수 있는 환경을 제공합니다. 캐글은 데이터 분석과 머신러닝을 배우고 실제 문제에 적용해 보고 싶은 사람들에게 유용한 플랫폼입니다. 2. Online Retail아래 사이트에 접속해 데이터를 다운로드합니다. [공식 주소] https.. 2025. 1. 17.
Matplotlib 1. MatplotlibMatplotlib은 파이썬에서 데이터를 시각화하는 데 널리 사용되는 강력한 라이브러리입니다. 다양한 그래프와 차트를 그릴 수 있으며, 선 그래프, 막대 그래프, 히스토그램, 산점도 등 기본적인 그래프부터 복잡한 3D 플롯까지 지원합니다. 사용법이 비교적 간단하고, 커스터마이징이 가능하여 데이터의 패턴과 트렌드를 효과적으로 표현할 수 있습니다. 또한, NumPy와 Pandas와 같은 데이터 분석 라이브러리와 잘 통합되어 데이터 과학, 머신러닝, 통계 등 다양한 분야에서 활용됩니다. Matplotlib의 기본 모듈인 pyplot은 MATLAB과 유사한 인터페이스를 제공해 초보자도 쉽게 사용할 수 있도록 설계되었습니다.https://matplotlib.org/ Matplotlib — .. 2025. 1. 17.
판다스-기초2(데이터프레임 합치기,원-핫 인코딩) 1.데이터프레임 합치기아래 파일을 다운받고 추가로 구글드라이브에 업로드합니다. df1 = pd.read_csv('내 드라이브 경로/idol (1).csv')df2 = pd.read_csv('내 드라이브 경로/idol2 (2).csv')df1df2df_copy = df1.copy()pd.concat([df1, df_copy]) # axis=0 (기본값)df_concat = pd.concat([df1, df_copy])# reset_index(): index를 새롭게 적용# drop=True 옵션을 사용하여 기존 index가 컬럼으로 만들어지는 것을 방지df_concat.reset_index(drop=True)#concat 행으로 붙이기pd.concat([df1, df2], axis=1) # 같은 index.. 2025. 1. 17.
판다스-기초1 1. 판다스(Pandas)판다스(Pandas)는 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석할 수 있도록 도와주는 도구입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 제공하며, 이를 통해 테이블 형태의 데이터를 다루기 용이합니다.pip install pandasimport pandas as pd # 거의 공식 처럼 pd라고 이름을 줌2. Series와 DataFrame 2-1. SeriesSeries는 1차원 배열과 같은 자료구조로 하나의 열을 나타냅니다. 또한 각 요소는 인덱스(index)와 값(value)으로 구성되어 있습니다. 값은 넘파이의 ndarray 기반으로 저장됩니다. Series는 다양한 데이터 타입을 가질 .. 2025. 1. 16.
넘파이 - 기초 1. 넘파이(Numpy)넘파이(Numpy)는 파이썬에서 사용되는 과학 및 수학 연산을 위한 강력한 라이브러리입니다. 주로 다차원 배열을 다루는 데에 특화되어 있어, 데이터 분석, 머신러닝, 과학 계산 등 다양한 분야에서 널리 사용됩니다. 넘파이 배열은 C 언어로 구현되어 있어 연산이 빠르고 효율적입니다. 특히 큰 데이터셋에서 수치 연산을 수행할 때 뛰어난 성능을 보입니다. 또한 메모리 사용을 최적화하고 효율적으로 관리합니다. pip install numpy#코랩에서는 기본적으로 제공import numpy as np2. 넘파이의 주요 특징과 기능2-1. 다차원 배열(N-dimensional array)넘파이의 핵심은 다차원 배열인 ndarray입니다. ndarray는 동일한 자료형을 가지는 원소들로 이루어.. 2025. 1. 16.