python---pandas.merge使用-白红宇

python---pandas.merge使用

阅读量：4211 次

发布时间：2019-05-26

本文共 3277 字，大约阅读时间需要 10 分钟。

merge 函数参数

merge: 合并数据集，通过left， right确定连接字段，默认是两个数据集相同的字段

参数说明

left 参与合并的左侧DataFrame

right 参与合并的右侧DataFrame

how 连接方式：‘inner’（默认）；还有，‘outer’、‘left’、‘right’

on 用于连接的列名，必须同时存在于左右两个DataFrame对象中，如果位指定，则以left和right列名的交集作为连接键

left_on 左侧DataFarme中用作连接键的列

right_on 右侧DataFarme中用作连接键的列

left_index 将左侧的行索引用作其连接键

right_index 将右侧的行索引用作其连接键

sort 根据连接键对合并后的数据进行排序，默认为True。有时在处理大数据集时，禁用该选项可获得更好的性能

suffixes 字符串值元组，用于追加到重叠列名的末尾，默认为（‘_x’,‘_y’）.例如，左右两个DataFrame对象都有‘data’，则结果中就会出现‘data_x’，‘data_y’

copy 设置为False，可以在某些特殊情况下避免将数据复制到结果数据结构中。默认总是赋值

1.merge默认按相同字段合并，且取两个都有的。

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'name':['kate','herz','sally'],                  'score':[70,60,90]})pd.merge(df1,df2)

结果：

age   name  score0   25   kate     701   28   herz     602   35  sally     90

2. 当左右连接字段不相同时，使用left_on,right_on

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'call_name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,left_on="name",right_on='call_name')print(df)

输出结果：

age   name call_name  score0   25   kate      kate     701   28   herz      herz     602   35  sally     sally     90

合并后，删除重复的列

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'call_name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,left_on="name",right_on='call_name').drop('call_name',axis=1)print(df)

输出结果：

age   name  score0   25   kate     701   28   herz     602   35  sally     90

3.参数how的使用

“1)默认：inner 内连接，取交集”

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,on="name",how='inner')print(df)

结果：

age   name  score0   25   kate     701   28   herz     602   35  sally     90

2)outer 外连接，取并集，并用nan填充

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,on="name",how='outer')print(df)

输出：

age       name  score0   25       kate   70.01   28       herz   60.02   39  catherine    NaN3   35      sally   90.0

3)left 左连接，左侧取全部，右侧取部分

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,on="name",how='left')print(df)

输出：

age       name  score0   25       kate   70.01   28       herz   60.02   39  catherine    NaN3   35      sally   90.0

4) right 有连接，左侧取部分，右侧取全部

import pandas as pddf1=pd.DataFrame({
  'name':['kate','herz','catherine','sally'],                  'age':[25,28,39,35]})df2=pd.DataFrame({
  'name':['kate','herz','sally'],                  'score':[70,60,90]})df=pd.merge(df1,df2,on="name",how='right')print(df)

输出：

age   name  score0   25   kate     701   28   herz     602   35  sally     90

转载地址：http://sggli.baihongyu.com/

你可能感兴趣的文章

3126 Prime Path

查看>>

app自动化测试---ADBInterface驱动安装失败问题：

查看>>

RobotFramework+Eclipse安装步骤

pycharm2019版本去掉下划线的方法

查看>>

SQL中EXISTS的用法

查看>>

10丨案例：在JMeter中如何设置参数化数据？

查看>>

11丨性能脚本：用案例和图示帮你理解HTTP协议

查看>>

12丨性能场景：做参数化之前，我们需要考虑什么？

Prometheus exporter详解

查看>>

15丨性能测试场景：如何进行监控设计

查看>>

16丨案例：性能监控工具之Grafana-Prometheus-Exporters

查看>>

九度OJ 1085：求root(N, k) （迭代）

查看>>

九度OJ 1086：最小花费（DP）

查看>>

九度OJ 1087：约数的个数（数字特性）