136、一维数据结构:Series
本文最后更新于 320 天前,其中的信息可能已经过时,如有错误请发送邮件到wuxianglongblog@163.com

一维数据结构:Series

import numpy as np
import pandas as pd

Series 是一维带标记的数组结构,可以存储任意类型的数据(整数,浮点数,字符串,Python 对象等等)。

作为一维结构,它的索引叫做 index,基本调用方法为

s = pd.Series(data, index=index)

其中,data 可以是以下结构:

  • 字典
  • ndarray
  • 标量,例如 5

index 是一维坐标轴的索引列表。

从 ndarray 构建

如果 data 是个 ndarray,那么 index 的长度必须跟 data 一致:

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

s
a   -0.032806
b    0.050207
c   -1.909697
d   -1.127865
e   -0.073793
dtype: float64

查看 index

s.index
Index([u'a', u'b', u'c', u'd', u'e'], dtype='object')

如果 index 为空,那么 index 会使用 [0, ..., len(data) - 1]

pd.Series(np.random.randn(5))
0   -0.376233
1   -0.474349
2    1.660590
3    0.461434
4    0.190965
dtype: float64

从字典中构造

如果 data 是个 dict,如果不给定 index,那么 index 将使用 dictkey 排序之后的结果:

d = {'a' : 0., 'b' : 1., 'c' : 2.}

pd.Series(d)
a    0
b    1
c    2
dtype: float64

如果给定了 index,那么将会按照 index 给定的值作为 key 从字典中读取相应的 value,如果 key 不存在,对应的值为 NaN(not a number, Pandas 中的缺失默认值):

pd.Series(d, index=['b', 'd', 'a'])
b     1
d   NaN
a     0
dtype: float64

从标量值构造

如果 data 是标量,那么 index 值必须被指定,得到一个值为 dataindex 等长的 Series

pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
a    5
b    5
c    5
d    5
e    5
dtype: float64

像 ndarray 一样使用 Series

s
a   -0.032806
b    0.050207
c   -1.909697
d   -1.127865
e   -0.073793
dtype: float64

支持数字索引操作:

s[0]
-0.032806330572971713

切片:

s[:3]
a   -0.032806
b    0.050207
c   -1.909697
dtype: float64

mask 索引:

s[s > s.median()]
a   -0.032806
b    0.050207
dtype: float64

花式索引:

s[[4, 3, 1]]
e   -0.073793
d   -1.127865
b    0.050207
dtype: float64

支持 numpy 函数:

np.exp(s)
a    0.967726
b    1.051488
c    0.148125
d    0.323724
e    0.928864
dtype: float64

像字典一样使用 Series

也可以像字典一样使用 Series

s["a"]
-0.032806330572971713

修改数值:

s["e"] = 12.

s
a    -0.032806
b     0.050207
c    -1.909697
d    -1.127865
e    12.000000
dtype: float64

查询 key

"e" in s
True
"f" in s
False

使用 key 索引时,如果不确定 key 在不在里面,可以用 get 方法,如果不存在返回 None 或者指定的默认值:

s.get("f", np.nan)
nan

向量化操作

简单的向量操作与 ndarray 的表现一致:

s + s
a    -0.065613
b     0.100413
c    -3.819395
d    -2.255729
e    24.000000
dtype: float64
s * 2
a    -0.065613
b     0.100413
c    -3.819395
d    -2.255729
e    24.000000
dtype: float64

Seriesndarray 不同的地方在于,Series 的操作默认是使用 index 的值进行对齐的,而不是相对位置:

s[1:] + s[:-1]
a         NaN
b    0.100413
c   -3.819395
d   -2.255729
e         NaN
dtype: float64

对于上面两个不能完全对齐的 Series,结果的 index 是两者 index 的并集,同时不能对齐的部分当作缺失值处理。

Name 属性

可以在定义时指定 name 属性:

s = pd.Series(np.random.randn(5), name='something')
s.name
'something'
谨此笔记,记录过往。凭君阅览,如能收益,莫大奢望。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇