50 個(gè)常見的 Python 數(shù)據(jù)分析小方法(上)

df.info()?#查看數(shù)據(jù)類型
df.shape?#查看數(shù)據(jù)規(guī)模
df.describe()?#數(shù)據(jù)統(tǒng)計(jì)信息描述Q2:如何設(shè)置才能不隱藏DataFram的列?
pd.set_option("max_columns",100)?#這里100可以調(diào)整:最大顯示列數(shù)
pd.set_option('display.max_columns',None)?#這種是都顯示df.isnull().sum()df.duplicated().any()df.fillna(method?=?"ffill")?#這是前向方法填充,bfill為后向填充
df.fillna(0)?#用0填充空值df.drop([""],?axis?=1,?inplace?=?True)df.dropna(axis?=?0,?how?=?'any',?inplace?=?True)df.drop_duplicates(inplace=True)df?=?df[~df["列名"].isin(['這里寫特殊值/錯(cuò)誤值'])]df[""]?=?df[""].astype(int)df?=?df.reset_index(drop?=?True)m?=?df[''].sort_values(ascending?=?False).index[:].tolist()
df?=?df.loc[m]
df?=?df.reset_index(drop?=?True)s?=?df.groupby("列")["指標(biāo)列"].agg(["count","sum","mean"])s?=?s[s["count"]>20]
s.sort_values("mean",?ascending?=?False).head(10)df?=?df.groupby('',as_index?=?False).count[['','']]
df.rename(columns?=?{'原來的列名':'新的列名'},inplace?=?True)data['時(shí)間']=pd.to_datetime(data['時(shí)間'])df['age']?=?(pd.to_datetime('這里是當(dāng)前日期如:2020-4')?-?pd.to_datetime(df['birthday']))?/?pd.Timedelta('365?days')t?=?df[""].str.split("\",expand?=?True)
t[0]cut_bins?=?np.arrange(90,130,5)#分段設(shè)置,這里是分成5段
bins?=?pd.cut(df['score'],?cut_bins)#將數(shù)據(jù)切片
bin_counts?=?df['score'].groupby(bins).count()df[''].value_counts()df[''].value_counts().plot(kind?=?"bar")df.corr()df.plot.scatter(x="",y?=?"",?figsize=(,),?title?=?"")fig?=?df[['','']].plot(kind?=?"kde",?figsize?=?(24,8),?title?=?"")
fig.axes.title.set_size(10)from?sklearn.linear_model?import?LogisticRegression
model?=?LogisticRegression()
X?=?df.drop(['y'],axis?=?1)
y?=?df['y']
model.fit(X,?y)
y_pre?=?model.predict(test)
推薦閱讀


點(diǎn)擊下方閱讀原文加入社區(qū)會(huì)員
點(diǎn)贊鼓勵(lì)一下

評論
圖片
表情
