發布時間: 2023-02-13 11:33:16
count | 非 NA 值的數量 |
describe | 針對 Series 或 DF 的列計算匯總統計 |
min , max | 最小值和最大值 |
argmin , argmax | 最小值和最大值的索引位置(整數) |
idxmin , idxmax | 最小值和最大值的索引值 |
quantile | 樣本分位數(0 到 1) |
sum | 求和 |
mean | 均值 |
median | 中位數 |
mad | 根據均值計算平均絕對離差 |
var | 方差 |
std | 標準差 |
skew | 樣本值的偏度(三階矩) |
kurt | 樣本值的峰度(四階矩) |
cumsum | 樣本值的累計和 |
cummin , cummax | 樣本值的累計最大值和累計最小值 |
cumprod | 樣本值的累計積 |
diff | 計算一階差分(對時間序列很有用) |
pct_change | 計算百分數變化 |
(1).fillna()會填充nan數據,返回填充后的結果
(2)pddata["a"].unique() 特征a的值出現的set——唯一值
(3).loc[]選取指定列進行操作——df.loc[行標簽,列標簽]
(4).iloc[]函數——只能通過行號索引:df.iloc[0:4]它是基于索引位來選取數據集,0:4就是選取 0,1,2,3這四行
(5)作圖
from pandas.tools.plotting import scatter_matrix(混淆散點圖)
scatter_matrix(含有n個特征的數據X,s=100, alpha=1, c=colors[index], figsize=(10,10))
例如:scatter_matrix(beer[["calories","sodium","alcohol","cost"]],s=100, alpha=1, c=colors[beer["cluster"]], figsize=(16,16))
上一篇: 微服務架構的優勢有哪些
下一篇: 軟考備考需要多長時間完成