dataframe相同值合并,两个dataframe合并并去除相同的
Pandas是一个非常好用的库,总结了Pandas DataFrame的常用用法,在使用过程中可以立即找到。
Pandas DataFrames是一个带有标记行和列的二维数据结构,可以存储多种类型的数据。如果熟悉Excel,可以像查看电子表格一样查看熊猫数据框。
一.导言
进口编号为NP
进口熊猫作为pd
二。规划
data=NP.array ([ 1,2,3 ]、[ 4,5,6 ]、[ 7,8,9 ])
c=[a , b , c]
r=[A , b , C]
df=PD.dataframe(data=data,columns=c,index=r).
三。整理
按列名和行名排序
#行名降序排序
df.sort_index(axis=0,ascending=False))))).
#列名降序排序
df.sort_index(axis=0,ascending=False))))).
按值排序
拿出来重新排序。
df [ a ]。sort _ values(升序=false)
Df内部排序
df.sort_values([a , b , c]
四。索引
位置索引
选择df.iloc[2] #行中的所有数据。是系列类型。
选择df.iloc[[2]] #行中的所有数据。数据类型
Df.iloc [:2]选择第2列中的所有数据。是系列类型。
选择df.iloc[:[2]] #列中的所有数据。数据类型
从df.iloc [:0:2] # 0选择两列中的所有数据。
选择df.iloc [[2,3],0:2] #行和第三行以及0到2列中的所有数据。
Df.iat [1,1] #推荐使用该方法快速检索数据,并根据位置检索个别数据。
自定义索引
Df.loc[top] #选择指定的行数据。是系列类型。
Df.loc[[top]] #选择指定的行数据。数据类型
Df.loc[: xm] #当指定的列数据被选中时,它将变成系列类型。不推荐。
Df.loc[:[xm]] #选择指定的列数据将更改为DataFrame类型。不推荐。
Df.loc[:[bj , xm]] #选择多栏数据(不推荐)))))。
Df.loc[: bj:xb] #选择多列之间的所有数据。列只能以这种方式使用。
Df.loc[[top , count], bj:xb] #选择指定的行并指定列数据
Df.at[top , xm] #建议使用此方法快速检索数据,并根据自定义索引检索单个数据。
布尔索引
#选择出生日期在1998年以上的所有数据。下面是字符串比较。
df[df[csrq]=1998]
#选择出生日期在1997年和1999年之间的所有数据。
Df () df(csrq) )=1997))数据)csrq)。
#选择出生日期在1997年和1999年之间的所有数据。
df[df[csrq]。介于( 1997 , 1999 ) ]
#选择出生日期大于1997年的所有数据或名称为cqdwk的数据。
df[(df(csrq ) ]=1997年数据))XM )==cqdwk ) ]
#另一个选项(不推荐。实测效率低于以上))))))))。
df[df.csrq=1998]
#选择字段值为指定内容的数据
df[df[xm]。isin([cqdwk , xfdc])
动词(verb的缩写)插入和删除
假设#CJ列还不存在,将在该列的末尾添加一个新列CJ。值为s(系列对象),位于此位置。
df[cj]=s
在值为s的#1列的位置插入dz(地址)列。此时
df.insert(0, dz ,s)).
# df2(必须是数据框对象的新列)内容)添加列)到df。不是那个地方。
df.join(df2))。
将df2行添加到df(添加行)的末尾,而不是就地添加。
附加(df2))
#删除单个列,返回被删除的列,并返回到原始位置
df.pop(XM)).
#删除指定行,不存在
df.drop(1)).
#删除指定的列,
Axis=1是指第二维度,Axis默认为0,不到位。
df.drop([xm , xh],axis=1)
不及物动词数据帧的重要方法和属性
重要属性
Df.value #查看所有元素的值
Df.dtypes #查看所有元素的类型
Df.index #查看所有行名
Df.index=[total , different , maximum , frequency] #重命名行名
Df.columns #查看所有列名
Df.columns=[class , name , gender ,生日] #重命名列名
Df。T #转置测向,非原位
查看数据
Df.head(n) #查看Df中的前n条数据,默认为5条
Df.tail(n) #查看Df后的n条数据,默认为5条。
Df.shape() #查看行数和列数
Df.info() #查看索引、数据类型和内存信息
统计
Df.describe() #查看数据值列的汇总统计信息,它属于DataFrame类型。
Df.count() #返回每列中非空值的数量
Df.sum() #返回各列之和,如果无法计算则返回null,下同。
df . sum(numeric _ only=true)# numeric _ only=true表示只计算数值型元素,下同。
Df.max() #返回每列的最大值
Df.min() #返回每列的最小值
Df.argmax() #返回最大值所在的自动索引位置。
Df.argmin() #返回最小值所在的自动索引位置。
Df.idxmax() #返回最大值所在的用户定义的索引位置。
Df.idxmin() #返回最小值所在的自定义索引位置。
Df.mean() #返回每列的平均值
Df.median() #返回每列的中值
Df.var() #返回每列的方差
Df.std() #返回每列的标准偏差
Df.isnull() #检查Df的空值,如果NaN为真,否则为假,返回一个布尔数组。
Df.notnull() #检查Df的空值,如果非NaN为真,否则为假,返回一个布尔数组。
七、转换为Numpy
df.values
数组
八。实际应用
获取BTC/USDT在过去10天的收盘标准差。
#计算标准偏差
因为_days=10
test_symbol=BTC/USDT
#计算时间点
three dayago=(datetime . datetime . now()-datetime . time delta(days=since _ days))
因为timestamp=int(time . mktime(three dayago . time tuple())*1000 #转换成时间戳,* 1000转换成13位的毫秒时间戳。
tickers_list=币安_交易所. fetch_ohlcv(测试_符号,时间范围=1d ,自=自时间戳)
# print(len(tickers_list))
#打印(tickers_list)
kline_data=pd。数据帧(tickers_list)
kline_data.columns=[Datetime , Open , High , Low , Close , Vol]
打印(kline_data)
print(describe:n ,kline_data.describe())
std=kline_data[Close]。标准()
打印(标准偏差:,标准)
打印:
日期时间开盘高/低收盘体积
0 1590192000000 9170.00 9307.85 9070.00 9179.15 43526.296966
1 1590278400000 9179.01 9298.00 8700.00 8720.34 70379.866450
2 1590364800000 8718.14 8979.66 8642.72 8900.35 62833.910949
3 1590451200000 8900.35 9017.67 8700.00 8841.18 58299.770138
4 1590537600000 8841.00 9225.00 8811.73 9204.07 68910.355514
5 1590624000000 9204.07 9625.47 9110.00 9575.89 74110.787662
6 1590710400000 9575.87 9605.26 9330.00 9427.07 57374.362961
7 1590796800000 9426.60 9740.00 9331.23 9697.72 55665.272540
8 1590883200000 9697.72 9700.00 9381.41 9448.27 48333.786403
9 1590969600000 9448.27 9619.00 9421.67 9542.47 15797.593487
描述:
日期时间开盘高/低收盘
计数1.000000 e 01 10.000000 10.000000 10.000000 10.0000000
平均值1.590581 e 12 9216.103000 9411.791000 9049.651000 9253.651000
标准2.615890 e 08 325.1688891 282.58586586
最低1.590192 e 12 8718.140000 8979.660000 8642.20000 8720.340000
25% 590386 e 128967.76250092435
50% 1.590581 e 12 9191.540000 9456.555000 9090.000000 9315.570000
75% 1.590775 e 12 9442.852500 9623.852555009
最大值1.590970 e 12 9697.720000 9740.000000 9421.670000 9697.720000
卷(volume的缩写)
数10.000000
平均55200 . 36363863637
标准16943.615232
最小15360 . 686868686615
25% 50166.657937
50% 57837.066549
75% 67391.244373
最大7410.787662
标准偏差:18860 . 688888886816
相关文章:
熊猫数据帧摘要
Python熊猫数据框架的创建(20)
Python熊猫数据帧元素访问(21)
关于查找教程网络
本站仅代表作者观点,不代表本站立场。所有文章均免费分享,不以盈利为目的。
该网站提供软件编程、网站开发技术、服务器运维、人工智能等IT技术文章。希望程序员好好学习,让我们用科技改变世界。
[3358 www.zyiz.net/tech/detail-138134.html[熊猫数据帧使用]概要