dataframe相同值合并,两个dataframe合并并去除相同的

  dataframe相同值合并,两个dataframe合并并去除相同的

  Pandas是一个非常好用的库,总结了Pandas DataFrame的常用用法,在使用过程中可以立即找到。

  Pandas DataFrames是一个带有标记行和列的二维数据结构,可以存储多种类型的数据。如果熟悉Excel,可以像查看电子表格一样查看熊猫数据框。

  一.导言

  进口编号为NP

  进口熊猫作为pd

  二。规划

  data=NP.array ([ 1,2,3 ]、[ 4,5,6 ]、[ 7,8,9 ])

  c=[a , b , c]

  r=[A , b , C]

  df=PD.dataframe(data=data,columns=c,index=r).

  三。整理

  按列名和行名排序

  #行名降序排序

  df.sort_index(axis=0,ascending=False))))).

  #列名降序排序

  df.sort_index(axis=0,ascending=False))))).

  按值排序

  拿出来重新排序。

  df [ a ]。sort _ values(升序=false)

  Df内部排序

  df.sort_values([a , b , c]

  四。索引

  位置索引

  选择df.iloc[2] #行中的所有数据。是系列类型。

  选择df.iloc[[2]] #行中的所有数据。数据类型

  Df.iloc [:2]选择第2列中的所有数据。是系列类型。

  选择df.iloc[:[2]] #列中的所有数据。数据类型

  从df.iloc [:0:2] # 0选择两列中的所有数据。

  选择df.iloc [[2,3],0:2] #行和第三行以及0到2列中的所有数据。

  Df.iat [1,1] #推荐使用该方法快速检索数据,并根据位置检索个别数据。

  自定义索引

  Df.loc[top] #选择指定的行数据。是系列类型。

  Df.loc[[top]] #选择指定的行数据。数据类型

  Df.loc[: xm] #当指定的列数据被选中时,它将变成系列类型。不推荐。

  Df.loc[:[xm]] #选择指定的列数据将更改为DataFrame类型。不推荐。

  Df.loc[:[bj , xm]] #选择多栏数据(不推荐)))))。

  Df.loc[: bj:xb] #选择多列之间的所有数据。列只能以这种方式使用。

  Df.loc[[top , count], bj:xb] #选择指定的行并指定列数据

  Df.at[top , xm] #建议使用此方法快速检索数据,并根据自定义索引检索单个数据。

  布尔索引

  #选择出生日期在1998年以上的所有数据。下面是字符串比较。

  df[df[csrq]=1998]

  #选择出生日期在1997年和1999年之间的所有数据。

  Df () df(csrq) )=1997))数据)csrq)。

  #选择出生日期在1997年和1999年之间的所有数据。

  df[df[csrq]。介于( 1997 , 1999 ) ]

  #选择出生日期大于1997年的所有数据或名称为cqdwk的数据。

  df[(df(csrq ) ]=1997年数据))XM )==cqdwk ) ]

  #另一个选项(不推荐。实测效率低于以上))))))))。

  df[df.csrq=1998]

  #选择字段值为指定内容的数据

  df[df[xm]。isin([cqdwk , xfdc])

  动词(verb的缩写)插入和删除

  假设#CJ列还不存在,将在该列的末尾添加一个新列CJ。值为s(系列对象),位于此位置。

  df[cj]=s

  在值为s的#1列的位置插入dz(地址)列。此时

  df.insert(0, dz ,s)).

  # df2(必须是数据框对象的新列)内容)添加列)到df。不是那个地方。

  df.join(df2))。

  将df2行添加到df(添加行)的末尾,而不是就地添加。

  附加(df2))

  #删除单个列,返回被删除的列,并返回到原始位置

  df.pop(XM)).

  #删除指定行,不存在

  df.drop(1)).

  #删除指定的列,

  Axis=1是指第二维度,Axis默认为0,不到位。

  df.drop([xm , xh],axis=1)

  不及物动词数据帧的重要方法和属性

  重要属性

  Df.value #查看所有元素的值

  Df.dtypes #查看所有元素的类型

  Df.index #查看所有行名

  Df.index=[total , different , maximum , frequency] #重命名行名

  Df.columns #查看所有列名

  Df.columns=[class , name , gender ,生日] #重命名列名

  Df。T #转置测向,非原位

  查看数据

  Df.head(n) #查看Df中的前n条数据,默认为5条

  Df.tail(n) #查看Df后的n条数据,默认为5条。

  Df.shape() #查看行数和列数

  Df.info() #查看索引、数据类型和内存信息

  统计

  Df.describe() #查看数据值列的汇总统计信息,它属于DataFrame类型。

  Df.count() #返回每列中非空值的数量

  Df.sum() #返回各列之和,如果无法计算则返回null,下同。

  df . sum(numeric _ only=true)# numeric _ only=true表示只计算数值型元素,下同。

  Df.max() #返回每列的最大值

  Df.min() #返回每列的最小值

  Df.argmax() #返回最大值所在的自动索引位置。

  Df.argmin() #返回最小值所在的自动索引位置。

  Df.idxmax() #返回最大值所在的用户定义的索引位置。

  Df.idxmin() #返回最小值所在的自定义索引位置。

  Df.mean() #返回每列的平均值

  Df.median() #返回每列的中值

  Df.var() #返回每列的方差

  Df.std() #返回每列的标准偏差

  Df.isnull() #检查Df的空值,如果NaN为真,否则为假,返回一个布尔数组。

  Df.notnull() #检查Df的空值,如果非NaN为真,否则为假,返回一个布尔数组。

  七、转换为Numpy

  df.values

  数组

  八。实际应用

  获取BTC/USDT在过去10天的收盘标准差。

  #计算标准偏差

  因为_days=10

  test_symbol=BTC/USDT

  #计算时间点

  three dayago=(datetime . datetime . now()-datetime . time delta(days=since _ days))

  因为timestamp=int(time . mktime(three dayago . time tuple())*1000 #转换成时间戳,* 1000转换成13位的毫秒时间戳。

  tickers_list=币安_交易所. fetch_ohlcv(测试_符号,时间范围=1d ,自=自时间戳)

  # print(len(tickers_list))

  #打印(tickers_list)

  kline_data=pd。数据帧(tickers_list)

  kline_data.columns=[Datetime , Open , High , Low , Close , Vol]

  打印(kline_data)

  print(describe:n ,kline_data.describe())

  std=kline_data[Close]。标准()

  打印(标准偏差:,标准)

  打印:

  日期时间开盘高/低收盘体积

  0 1590192000000 9170.00 9307.85 9070.00 9179.15 43526.296966

  1 1590278400000 9179.01 9298.00 8700.00 8720.34 70379.866450

  2 1590364800000 8718.14 8979.66 8642.72 8900.35 62833.910949

  3 1590451200000 8900.35 9017.67 8700.00 8841.18 58299.770138

  4 1590537600000 8841.00 9225.00 8811.73 9204.07 68910.355514

  5 1590624000000 9204.07 9625.47 9110.00 9575.89 74110.787662

  6 1590710400000 9575.87 9605.26 9330.00 9427.07 57374.362961

  7 1590796800000 9426.60 9740.00 9331.23 9697.72 55665.272540

  8 1590883200000 9697.72 9700.00 9381.41 9448.27 48333.786403

  9 1590969600000 9448.27 9619.00 9421.67 9542.47 15797.593487

  描述:

  日期时间开盘高/低收盘

  计数1.000000 e 01 10.000000 10.000000 10.000000 10.0000000

  平均值1.590581 e 12 9216.103000 9411.791000 9049.651000 9253.651000

  标准2.615890 e 08 325.1688891 282.58586586

  最低1.590192 e 12 8718.140000 8979.660000 8642.20000 8720.340000

  25% 590386 e 128967.76250092435

  50% 1.590581 e 12 9191.540000 9456.555000 9090.000000 9315.570000

  75% 1.590775 e 12 9442.852500 9623.852555009

  最大值1.590970 e 12 9697.720000 9740.000000 9421.670000 9697.720000

  卷(volume的缩写)

  数10.000000

  平均55200 . 36363863637

  标准16943.615232

  最小15360 . 686868686615

  25% 50166.657937

  50% 57837.066549

  75% 67391.244373

  最大7410.787662

  标准偏差:18860 . 688888886816

  相关文章:

  熊猫数据帧摘要

  Python熊猫数据框架的创建(20)

  Python熊猫数据帧元素访问(21)

  关于查找教程网络

  本站仅代表作者观点,不代表本站立场。所有文章均免费分享,不以盈利为目的。

  该网站提供软件编程、网站开发技术、服务器运维、人工智能等IT技术文章。希望程序员好好学习,让我们用科技改变世界。

  [3358 www.zyiz.net/tech/detail-138134.html[熊猫数据帧使用]概要

dataframe相同值合并,两个dataframe合并并去除相同的