df.dtypes:查看数值类型
- astype()强制转化数据类型
- 通过创建自定义的函数进行数据转化
- pandas提供的to_nueric()以及to_datetime()
- df["Active"].astype("bool")
- df['2016'].astype('float')
- df["2016"].apply(lambda x: x.replace(",","").replace("$","")).astype("float64")
- df["Percent Growth"].apply(lambda x: x.replace("%","")).astype("float")/100
- pd.to_numeric(df["Jan Units"],errors='coerce').fillna(0)
- pd.to_datetime(df[['Month', 'Day', 'Year']])
筛选数据:
1、按索引提取单行的数值
- df_inner.loc[3]
2、按索引提取区域行数值
- df_inner.iloc[0:5]
3、提取4日之前的所有数据
- df_inner[:’2013-01-04’]
4、使用iloc按位置区域提取数据
- df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。
5、适应iloc按位置单独提起数据
- df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列
6、使用ix按索引标签和位置混合提取数据
- df_inner.ix[:’2013-01-03’,:4] #2013-01-03号之前,前四列数据
7、使用loc提取行和列
- df_inner.loc(2:10,"A":"Z")
8、判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来
- df_inner[‘city’].isin([‘beijing’])
- df_inner.loc[df_inner[‘city’].isin([‘beijing’,’shanghai’])]
9、提取前三个字符,并生成数据表
- pd.DataFrame(category.str[:3])
10、使用“与”进行筛选
- df_inner.loc[(df_inner[‘age’] > 25) & (df_inner[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]]
11、使用“或”进行筛选
- df_inner.loc[(df_inner[‘age’] > 25) | (df_inner[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘age’])
12、使用“非”条件进行筛选
- df_inner.loc[(df_inner[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’])
13、对筛选后的数据按city列进行计数
- df_inner.loc[(df_inner[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’]).city.count()
14、使用query函数进行筛选
- df_inner.query(‘city == [“beijing”, “shanghai”]’)
15、对筛选后的结果按prince进行求和
- df_inner.query(‘city == [“beijing”, “shanghai”]’).price.sum()
数据排序
按照特定列的值排序:
- df_inner.sort_values(by=[‘age’])
按照索引列排序:
- df_inner.sort_index()
升序
- df_inner.sort_values(by=[‘age’],ascending=True)
降序
- df_inner.sort_values(by=[‘age’],ascending=False)
合并匹配:
merge
- 1.result = pd.merge(left, right, on='key')
- 2.result = pd.merge(left, right, on=['key1', 'key2'])
- 3.result = pd.merge(left, right, how='left', on=['key1', 'key2'])
- 4.result = pd.merge(left, right, how='right', on=['key1', 'key2'])
- 5.result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
(编辑:威海站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|