본문 바로가기
728x90

pandas6

데이터 처리와 분석에 NumPy와 Pandas가 필수인 이유!? 오늘은 데이터 분석과 머신러닝 프로젝트에서 필수적으로 사용되는 두 가지 파이썬 라이브러리, NumPy와 Pandas에 대해 이야기해보려고 해요. 왜 이 두 가지 툴을 사용해야 하는지 궁금하지 않나요? 왜 NumPy와 Pandas를 사용할까?파이썬은 그 자체로 강력한 프로그래밍 언어지만, 대규모 데이터 처리와 분석에는 조금 부족할 수 있어요. 이때 NumPy와 Pandas를 사용하면 복잡한 데이터를 쉽게 다룰 수 있답니다. 그럼 왜 많은 데이터 사이언티스트와 개발자들이 이 두 라이브러리를 사랑하는지 살펴봅시다!📌 NumPy: 빠르고 효율적인 수치 계산!NumPy는 고성능 수치 계산을 위한 필수 도구예요. 고성능 수치 계산빠른 연산 속도: NumPy는 배열 연산을 C로 구현해서 파이썬 기본 기능보다 훨씬 .. 2024. 7. 7.
[pandas] 특정 컬럼에서 특정 문자열이 포함된 행 찾기 | str.contains 판다스에서는 특정 컬럼에서 특정 문자열이 포함된 행을 찾을 수 있습니다. 이를 위해서는 해당 컬럼의 문자열에 대해 str.contains() 메서드를 사용할 수 있습니다. str.contains() 기본 사용법 contains_apple = df[df['컬럼 A'].str.contains('가나다라')] "컬럼 A"에서 "가나다라"가 포함된 행을 찾기 위해서는 위와 같이 사용하면 된다. 정규 표현식 사용 contains_pattern = df[df['A'].str.contains('사과|바나나', regex=True)] regex=True 로 설정하여 정규 표현식을 사용할 수 있다. 예를 들어, 특정 패턴이나 문자열을 정규 표현식으로 지정하여 검색할 수 있다. 위 예시는 '사과' 또는 '바나나'가 포함된.. 2023. 11. 17.
[pandas] 특정 컬럼의 값이 공백인 행을 제외하는 방법 | dropna 판다스의 데이터프레임에서 특정 컬럼의 값이 공백(또는 빈 문자열)인 행을 제외하고 싶을 때 어떻게 하면 되는지 알아보자. 특정 컬럼의 공백인 행 제거 import pandas as pd # 샘플 데이터프레임 생성 data = {'A': [1, 2, 3, 4], 'B': ['apple', 'banana', '', 'orange']} df = pd.DataFrame(data) # 'B' 컬럼의 값이 공백인 행 제외 df_no_empty_values = df[df['B'].str.strip() != ''] # 결과 출력 print(df_no_empty_values) 위 코드에서 df['B'].str.strip() != '' 부분은 'B' 컬럼의 각 값에 대해 좌우의 공백을 제거하고 빈 문자열과 비교하여 공백인.. 2023. 11. 17.
[pandas] 특정 컬럼에서 중복된 값 제거 | drop_duplicates 판다스 데이터프레임에서 간혹 특정 컬럼에 중복된 값을 제거하고 싶은 경우가 있다. 만약 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행을 모두 제거하고 싶다면 다음과 같은 방법을 사용할 수 있다. import pandas as pd # 샘플 데이터프레임 생성 data = {'column_name': [1, 2, 3, 1, 2, 4]} df = pd.DataFrame(data) # 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행 제거 df_no_duplicates = df.drop_duplicates(subset='column_name', keep='first') # 결과 출력 print(df_no_duplicates) # 행 개수 비교 print(len(df.. 2023. 11. 17.
[pandas] DataFrame 설명 | 데이터 조작, 필터링, 시각화, 통계 분석 판다스(Pandas) 판다스(Pandas)는 파이썬에서 데이터 조작과 분석을 위한 라이브러리로, 특히 표 형식의 데이터를 다루기에 용이하다. 판다스의 주요 자료구조인 데이터프레임(DataFrame)은 행과 열로 이루어진 테이블 형식의 데이터를 다루기 위한 자료구조로 데이터를 다룰 때 자주 사용된다. 데이터프레임 생성 import pandas as pd # 2차원 리스트로 데이터프레임 생성 data = [ ['Alice', 25, 'New York'], ['Bob', 30, 'San Francisco'], ['Charlie', 35, 'Los Angeles'] ] df = pd.DataFrame(data, columns=['Name', 'Age', 'City']) 판다스의 pd.DataFrame() 함수를.. 2023. 11. 16.
[pandas] 2차원 리스트를 데이터프레임으로 변환하기 | pd.DataFrame 데이터 파일이 콤마나 탭으로 구분된 csv, tsv 등의 파일 형태이면, pd.read_csv(file_path) 또는 pd.read_table(file_path, sep='\t') 을 파일을 읽어 바로 데이터프레임으로 사용할 수 있다. 하지만, 간혹 비정형 데이터를 테이블 형태로 가공 후 데이터프레임으로 변환하고 싶을 때가 있는데, 생각보다 매우 간단하다. pd.DataFrame()을 사용하고, columns 만 지정해주면 된다. 2차원 리스트 → 데이터프레임 변환 예시 import pandas as pd # 2차원 리스트 data = [ ['Alice', 25, 'New York'], ['Bob', 30, 'San Francisco'], ['Charlie', 35, 'Los Angeles'] ] # .. 2023. 11. 16.
728x90