23 đoạn code tuyệt vời của Pandas dành cho Data Scientists
Dưới đây là 23 đoạn code Pandas rất cần thiết cho các bạn trong quá trình phân tích dữ liệu
In các thông tin cơ bản của dữ liệu
Đọc file CSV
pd.DataFrame.from_csv(“csv_file”)
hoặc
pd.read_csv(“csv_file”)
Đọc file Excel
pd.read_excel("excel_file")
Ghi dữ liệu DataFrame vào file CSV
df.to_csv("data.csv", sep=",", index=False)
In các thông số cơ bản
df.info()
Thống kê dữ liệu
print(df.describe())
In dữ liệu trong DataFrame dưới dạng bảng
print(tabulate(print_table, headers=headers))
với print_table là dữ liệu và headers là mảng chứa tên của các cột
Lấy tên của các cột
df.columns
Thao tác với dữ liệu
Lọc các thông tin bị thiếu
df.dropna(axis=0, how='any')
với axis chỉ định chiều cần lọc và how chỉ định tiêu chí lọc
Kiểm tra NaN
pd.isnull(object)
Loại bỏ 1 thuộc tính của dữ liệu
df.drop('feature_variable_name', axis=1)
Chuyển đổi kiểu dữ liệu của đối tượng thành kiểu float
pd.to_numeric(df["feature_name"], errors='coerce')
Chuyển đổi DataFrame sang Numpy array
df.as_matrix()
Lấy n hàng đầu tiên của DataFrame
df.head(n)
Lấy dữ liệu theo tên thuộc tính
df.loc[feature_name]
Operating trên DataFrame
Áp dụng một hàm lên DataFrame
df["height"].apply(lambda height: 2 * height)
Đổi tên một cột
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
Lấy những giá trị riêng biệt của một cột
df["name"].unique()
Tạo một DataFrame con từ DataFrame gốc
new_df = df[["name", "size"]]
với new_df gồm dữ liệu về 2 cột của df
Lấy các chỉ số tổng quát của dữ liệu
# Tổng tất cả phần tử df.sum() # Giá trị phần tử nhỏ nhất df.min() # Giá trị phần tử lớn nhất df.max() # Vị trí của phần tử nhỏ nhất df.idxmin() # Vị trí của phần tử lớn nhất df.idxmax() # Thống kê các chỉ số cơ bản của dữ liệu df.describe() # Giá trị trung bình df.mean() # Giá trị Median df.median() # Ma trận tương quan giữa các cột df.corr() # Lấy các chỉ số như trên nhưng chỉ cho 1 cột df["size"].median()
Sắp xếp dữ liệu
df.sort_values(ascending = False)
Boolean indexing
df[df["size"] == 5]
chọn các hàng có thuộc tính "size" có giá trị 5
Lấy giá trị phần tử
df.loc([0], ['size'])
lấy giá trị của phần tử nằm ở hàng đầu tiên, cột "size"
Cảm ơn các bạn đã đọc bài viết :D
Nguồn: TowardsDataScience 23 great Pandas codes for Data Scientists