Release Notes¶
这是每个版本之间对pandas的更改列表。有关完整详细信息,请参阅提交日志http://github.com/pandas-dev/pandas
什么是
pandas是一个Python包,提供快速,灵活和表达性的数据结构,旨在使用“关系”或“标记”数据,既方便又直观。它旨在成为在Python中进行实际,真实世界数据分析的基本高级构建块。此外,它具有更广泛的目标,成为任何语言中可用的最强大和灵活的开源数据分析/操作工具。
在哪里取得
- 源代码:http://github.com/pandas-dev/pandas
- PyPI上的二进制安装程序:http://pypi.python.org/pypi/pandas
- 文档:http://pandas.pydata.org
pandas 0.19.2¶
发布日期: 2016年12月24日
这是0.19.x系列中的一个小错误修复版本,包括一些小的回归修复,错误修复和性能改进。
亮点包括:
有关已在0.19.2中修复的所有错误的概述,请参阅v0.19.2 Whatsnew页面。
Thanks¶
- Ajay Saxena
- 本·坎德尔
- 克里斯
- 克里斯·哈姆
- 克里斯托弗·Aycock
- 丹尼尔·希梅尔斯坦
- Dave Willmer
- Dr-Irv
- gfyoung
- hesham沙巴纳
- 杰夫凯里
- Jeff Reback
- 乔·杰夫尼克
- Joris Van den Bossche
- 朱利安桑坦德
- Kerby Shedden
- Keshav Ramaswamy
- 凯文谢泼德
- Luca Scarabello
- 马太皮库斯
- 马特Roeschke
- Maximilian Roos
- Mykola Golubyev
- Nate Yoder
- Nicholas Ver Halen
- Pawel Kordek
- Pietro Battiston
- Rodolfo Fernandez
- sinhrks
- Tara Adiseshan
- 汤姆·奥古斯都
- wandersoncferreira
- 雅罗斯拉夫Halchenko
pandas 0.19.1¶
发布日期: 2016年11月3日
这是一个从0.19.0的小错误修复版本,并包括一些小的回归修复,错误修复和性能改进。
有关已在0.19.1中修复的所有错误的概述,请参阅v0.19.1 Whatsnew页面。
Thanks¶
- 亚当·Chainz
- Anthonios Partheniou
- Arash Rouhani
- 本·坎德尔
- Brandon M. Burroughs
- 克里斯
- 克里斯-B1
- 克里斯·沃特
- 大卫Krych
- dubourg
- gfyoung
- IvánVallésPérez
- Jeff Reback
- 乔·杰夫尼克
- Jon M.Mease
- Joris Van den Bossche
- Josh Owen
- Keshav Ramaswamy
- 拉里·任
- 马特里克
- 迈克尔·费尔特
- 保罗·甘诺诺
- Piotr Chromiec
- 罗伯特·布拉德肖
- Sinhrks
- Thiago Serafim
- 汤姆鸟
pandas 0.19.0¶
发布日期: 2016年10月2日
这是0.18.1的主要版本,包括多个API更改,几个新功能,增强功能和性能改进以及大量错误修复。我们建议所有用户升级到此版本。
亮点包括:
merge_asof()
用于asof风格的时间序列连接,请参阅here.rolling()
现在是时间序列感知,请参阅hereread_csv()
现在支持解析Categorical
数据,请参阅here- 已添加函数
union_categorical()
用于组合分类,请参阅here PeriodIndex
现在有自己的period
dtype,并且更改为与其他Index
类更一致。请参阅here- 稀疏数据结构增强了对
int
和bool
dtypes的支持,参见here - 与
Series
的比较操作不再忽略索引,有关API更改的概述,请参阅here。 - 介绍用于实用函数的pandas开发API,请参见here。
- 弃用
Panel4D
和PanelND
。我们建议使用xarray软件包来表示这些类型的n维数据。 - Removal of the previously deprecated modules
pandas.io.data
,pandas.io.wb
,pandas.tools.rplot
.
有关已在0.19.0中修复的所有增强功能和错误的详细列表,请参见v0.19.0 Whatsnew概述。
Thanks¶
- adneu
- 阿德里安·埃默里
- agraboso
- 亚历克斯Alekseyev
- 亚历克斯Vig
- 艾伦·里德尔
- Amol
- Amol Agrawal
- Andy R. Terrel
- Anthonios Partheniou
- babakkeyvani
- 本·坎德尔
- 鲍勃·巴克斯利
- Brett Rosen
- c123w
- Camilo Cota
- 克里斯
- 克里斯-B1
- Chris Grinolds
- 克里斯蒂安·哈东
- 克里斯托弗·Aycock
- 克里斯·沃特
- cmazzullo
- conquistador1492
- cr3
- 丹尼尔Siladji
- 道格拉斯·麦克尼尔
- 德鲁里Lupton
- dsm054
- Eduardo Blancas Reyes
- 艾略特·马斯登
- 埃文·赖特
- Felix Marczinowski
- 弗朗西斯T. O'Donovan
- GáborLipták
- Geraint鸭子
- gfyoung
- 贾科莫Ferroni
- Grant Roch
- Haleemur阿里
- harshul1610
- Hassan Shamim
- iamsimha
- Iulius Curt
- 伊万·纳扎罗夫
- jackieleng
- Jeff Reback
- 杰弗里·杰拉德
- Jenn Olsen
- 吉姆·克里斯特
- 乔·杰夫尼克
- 约翰·埃文斯
- 约翰·弗里曼
- 约翰Liekezer
- 约翰尼·吉尔
- 约翰·奥布莱恩
- 约翰·兹温克
- 约旦Erenrich
- Joris Van den Bossche
- 乔希Howes
- Jozef Brandys
- Kamil Sindi
- Ka Wo Chen
- Kerby Shedden
- Kernc
- 凯文谢泼德
- Matthieu Brucher
- Maximilian Roos
- 迈克尔·舍雷尔
- 麦克·格雷厄姆
- Mortada Mehyar
- mpuels
- Muhammad Haseeb Tariq
- Nate乔治
- 尼尔·帕利
- Nicolas Bonnotte
- OXPHOS
- 潘登/佐拉
- 保罗
- Pauli Virtanen
- Paul Mestemaker
- Pawel Kordek
- Pietro Battiston
- pijucha
- Piotr Jucha
- priyankjain
- Ravi Kumar Nimmi
- 罗伯特·吉塞克
- 罗伯特·凯恩
- 罗杰·托马斯
- Roy Keyes
- 罗素·史密斯
- Sahil Dua
- Sanjiv Lobo
- SašoStanovnik
- 肖恩海德
- sinhrks
- Sinhrks
- 斯蒂芬Kappel
- 史蒂夫崔
- 斯图尔特亨德森
- Sudarshan Konge
- 托马斯·卡斯韦尔
- 汤姆·奥古斯都
- 汤姆鸟
- Uwe Hoffmann
- wcwagner
- WillAyd
- 张翔
- 亚渡南
- 雅罗斯拉夫Halchenko
- YG-Riku
- Yuichiro Kaneko
- 尤克
- 张金杰
- znmean
- 颜发才
pandas 0.18.1¶
发布日期:(2016年5月3日)
这是一个从0.18.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。
亮点包括:
.groupby(...)
has been enhanced to provide convenient syntax when working with.rolling(..)
,.expanding(..)
and.resample(..)
per group, see herepd.to_datetime()
已获得从DataFrame
汇编日期的能力,请参阅here- 方法链接改进,请参见here。
- 自定义营业时间偏移量,请参见here。
- 处理
sparse
的许多错误修复,请参阅here - 用@TomAugsburger提供的现代大熊猫的功能展开Tutorials section。(GH13045)。
有关已在0.18.1中修复的所有增强功能和错误的详细列表,请参见v0.18.1 Whatsnew概述。
Thanks¶
- 安德鲁·菲奥雷 - 加特兰
- Bastiaan
- BenoîtVinot
- 布兰登·罗德斯
- DaCoEx
- Drew Fustin
- Ernesto Freitas
- Filip Ter
- Gregory Livschitz
- GáborLipták
- Hassan Kibirige
- 林叶林
- 以色列Saeta佩雷斯
- 贾森Wolosonovich
- Jeff Reback
- 乔·杰夫尼克
- Joris Van den Bossche
- 约书亚Storck
- Ka Wo Chen
- Kerby Shedden
- Kieran O'Mahony
- Leif Walsh
- Mahmoud Lababidi
- 刘茂元
- 马克·罗斯
- 马特·威特曼
- MaxU
- Maximilian Roos
- 迈克尔Droettboom
- 尼克Eubank
- Nicolas Bonnotte
- OXPHOS
- Pauli Virtanen
- 彼得·沃勒
- Pietro Battiston
- Prabhjot Singh
- 罗宾威尔逊
- 罗杰·托马斯
- 塞巴斯蒂安银行
- Stephen Hoover
- Tim Hopper
- 汤姆·奥古斯都
- 王爱勇
- Wes Turner
- Winand
- Xbar
- 严平
- adneu
- ajenkins-cargometrics
- behzad nouri
- chinskiy
- gfyoung
- jeps-journal
- jonaslb
- kotrfa
- nileracecrew
- onesandzeroes
- rs2
- sinhrks
- tsdlovell
pandas 0.18.0¶
发布日期:(2016年3月13日)
这是从0.17.1的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
- 移动和扩展窗口函数现在是Series和DataFrame上的方法,类似于
.groupby
,请参阅here。 - 添加对
RangeIndex
的支持,作为Int64Index
的特殊形式,以节省内存,请参阅here。 - API中断更改为
.resample
方法,使其更多.groupby
,例如,请参阅here。 - 删除对浮动位置索引的支持,自0.14.0以来已弃用。现在会产生
TypeError
,请参阅here。 - 为了与xarray软件包兼容,已添加
.to_xarray()
函数,请参阅here。 read_sas
函数已增强以读取sas7bdat
文件,请参阅here。- 添加.str.extractall() method和API更改为.str.extract() method和.str.cat() method
pd.test()
顶级鼻梁测试跑步机可用(GH4327)。
有关已在0.18.0中修复的所有增强功能和错误的详细列表,请参见v0.18.0 Whatsnew概述。
Thanks¶
- ARF
- 亚历克斯Alekseyev
- 麦克弗森
- 安德鲁·罗森费尔德
- Anthonios Partheniou
- Anton I. Sipos
- 本
- 本北
- Bran杨
- 克里斯
- 克里斯·卡鲁
- 克里斯托弗·Aycock
- 克里斯托弗·斯克林
- Cody
- 大王
- 丹尼尔·格雷迪
- Dorozhko安东
- Dr-Irv
- Erik M. Bray
- 埃文·赖特
- 弗朗西斯T. O'Donovan
- 弗兰克·克利里
- Gianluca Rossi
- 格雷厄姆·杰弗里斯
- Guillaume Horel
- 亨利·哈蒙德
- Isaac Schwabacher
- Jean-Mathieu Deschenes
- Jeff Reback
- 乔·杰夫尼克
- 约翰·弗里曼
- 约翰·弗里林
- 乔纳斯·霍尔施
- Joris Van den Bossche
- Joris Vankerschaver
- Justin Lecher
- 林小姐
- Ka Wo Chen
- 张凯明
- Kerby Shedden
- 凯尔
- Marco Farrugia
- MasonGallo
- MattRijk
- 马修·卢里
- Maximilian Roos
- Mayank Asthana
- Mortada Mehyar
- Moussa Taifi
- Navreet Gill
- Nicolas Bonnotte
- 保罗·赖纳斯
- 菲利普·古拉
- Pietro Battiston
- RahulHP
- Randy Carnevale
- Rinoc约翰逊
- Rishipuri
- Sangmin公园
- Scott E Lasley
- Sereger13
- 王香农
- 船长海鸟
- Thierry Moisan
- 托马斯·卡斯韦尔
- Toby Dylan Hocking
- 汤姆·奥古斯都
- Travis
- Trent Hauck
- Tux1
- 瓦伦
- 麦肯尼
- 将汤普森
- Yoav Ram
- 孔康林
- YoshikiVázquezBaeza
- Young Joong Kim
- 金俊贤
- Yuval兰格
- alex argunov
- behzad nouri
- boombard
- brian-pantano
- 色度
- 丹尼尔
- dgram0
- gfyoung
- 哈克克
- hcontrast
- jfoo
- kaustuv deolal
- 1llllll
- ranarag
- rockg
- scls19fr
- 密封
- sinhrks
- srib
- surveymedia.ca
- tworec
pandas 0.17.1¶
发布日期:(2015年11月21日)
这是一个从0.17.0的小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
- 支持条件HTML格式化,请参见here
- 在csv阅读器和其他操作上释放GIL,请参见here
- 在
DataFrame.drop_duplicates
中从0.16.2回归,导致对整数值的不正确结果(GH11376)
有关已在0.17.1中修复的所有增强功能和错误的详细列表,请参阅v0.17.1 Whatsnew概述。
Thanks¶
- Aleksandr Drozd
- Alex Chase
- Anthonios Partheniou
- BrenBarn
- Brian J. McGuirk
- 克里斯
- 克里斯蒂安·贝伦特
- 克里斯蒂安·佩雷斯
- Cody Piersall
- 数据和代码专家实验数据代码
- DrIrv
- 埃文·赖特
- 纪尧姆同性恋
- 哈米德Saljooghinejad
- 林叶林
- 杰克·范德普拉斯
- Jan Schulz
- Jean-Mathieu Deschenes
- Jeff Reback
- 吉米Callin
- Joris Van den Bossche
- K.-Michael Aye
- Ka Wo Chen
- LoïcSéguin-C
- 罗一成
- MagnusJöud
- 曼努埃尔Leonhardt
- 马修·吉尔伯特
- Maximilian Roos
- 迈克尔
- 尼古拉斯·斯塔尔
- Nicolas Bonnotte
- 牧师
- Petra Chong
- 菲尔·沙夫
- 菲利普A
- Rob deCarvalho
- 罗曼Khomenko
- RémyLéone
- 塞巴斯蒂安银行
- Thierry Moisan
- 汤姆·奥古斯都
- Tux1
- 瓦伦
- 维兰德·霍夫曼
- Winterflower
- Yoav Ram
- 金俊贤
- Zeke
- ajcr
- azuranski
- behzad nouri
- cel4
- emilydolson
- hironow
- 词汇
- 1llllll
- rockg
- silentquasar
- sinhrks
- taeold
pandas 0.17.0¶
发布日期:(2015年10月9日)
这是从0.16.2的主要版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。我们建议所有用户升级到此版本。
亮点包括:
- 在一些cython操作上释放全局解释器锁(GIL),请参见here
- 绘图方法现在可作为
.plot
存取器的属性,请参见here - 已更新排序API以消除一些长期不一致,请参阅here
- 支持将时区作为第一类dtype的
datetime64[ns]
,请参阅here to_datetime
的默认值现在为raise
,当呈现不可解析的格式时,以前这将返回原始输入。此外,日期解析函数现在返回一致的结果。请参阅here- The default for
dropna
inHDFStore
has changed toFalse
, to store by default all rows even if they are allNaN
, see here - Datetime存取器(
dt
)现在支持Series.dt.strftime
生成datetime-like和Series.dt.total_seconds
的格式化字符串timedelta的每个持续时间(以秒为单位)。请参阅here Period
和PeriodIndex
可以处理类似于3D
的倍频,其对应于3天跨度。请参阅here- 开发安装的pandas版本现在将具有符合
PEP440
的版本字符串(GH9518) - 使用空速速度库(GH8316)进行基准测试的开发支持
- 支持读取SAS xport文件,请参见here
- 将SAS与pandas进行比较的文档,请参阅here
- 删除自0.8.0以来弃用的自动TimeSeries广播,请参阅here
- 带有纯文本的显示格式可以选择与Unicode东亚宽度对齐,请参见here
- 与Python 3.5的兼容性(GH11097)
- 与matplotlib 1.5.0的兼容性(GH11111)
有关已在0.17.0中修复的所有增强功能和错误的详细列表,请参阅v0.17.0 Whatsnew概述。
Thanks¶
- 亚历克斯罗斯伯格
- 安德烈·贝迪尼
- 安德鲁·罗森费尔德
- 安迪李
- Anthonios Partheniou
- Artemy Kolchinsky
- 伯纳德·威尔斯
- 查理·克拉克
- 克里斯
- 克里斯·威廉
- Christoph Gohlke
- 克里斯托弗·威兰
- Clark Fitzgerald
- Clearfield克里斯托弗
- Dan Ringwalt
- 丹尼尔尼
- 数据和代码专家实验数据代码
- 大卫·科特雷尔
- 大卫约翰·加涅
- 大卫凯利
- ETF
- Eduardo Schettino
- Egor
- Egor Panfilov
- 埃文·赖特
- 弗兰克·潘特
- Gabriel Araujo
- Garrett-R
- Gianluca Rossi
- 纪尧姆同性恋
- Guillaume Poulin
- 苛刻的Nisar
- 伊恩Henriksen
- Ian Hoegen
- Jaidev Deshpande
- 鲁道夫
- Jan Schulz
- Jason Swails
- Jeff Reback
- 乔纳斯·布尔
- Joris Van den Bossche
- Joris Vankerschaver
- Josh Levy-Kramer
- Julien Danjou
- Ka Wo Chen
- Karrie Kehoe
- Kelsey Jordahl
- Kerby Shedden
- 凯文谢泼德
- Lars Buitinck
- Leif约翰逊
- Luis Ortiz
- 苹果电脑
- Matt Gambogi
- Matt Savoie
- 马修·吉尔伯特
- Maximilian Roos
- 米开朗基罗·达戈斯蒂诺
- Mortada Mehyar
- 尼克Eubank
- 尼姑巴特拉
- OndřejČertík
- 菲利普云
- Pratap Vardhan
- Rafal Skolasinski
- 理查德·刘易斯
- Rinoc约翰逊
- Rob Levy
- 罗伯特·吉塞克
- Safia Abdalla
- 塞缪尔·丹尼
- Saumitra Shahapure
- SebastianPölsterl
- 塞巴斯蒂安·鲁伯特
- 谢泼德,凯文
- Sinhrks
- 司徒林
- 船长海鸟
- Spencer Carrucciu
- Stephan Hoyer
- Stephen Hoover
- 斯蒂芬·帕斯科
- Terry Santegoeds
- 托马斯·格兰杰
- Tjerk Santegoeds
- 汤姆·奥古斯都
- 文森特戴维斯
- Winterflower
- 雅罗斯拉夫Halchenko
- 元堂(特里)
- agijsberts
- ajcr
- behzad nouri
- cel4
- cyrusmaher
- davidovitch
- ganego
- jreback
- juricast
- larvian
- maximilianr
- msund
- rekcahpassyla
- 罗伯茨克
- scls19fr
- 塞特山
- sinhrks
- 弹簧圈
- terrytangyuan
- tzinckgraf
pandas 0.16.2¶
发布日期:(2015年6月12日)
这是从0.16.1的一个小版本,包括大量的错误修复以及几个新的功能,增强功能和性能改进。
亮点包括:
有关已在0.16.2中修复的所有增强功能和错误的详细列表,请参阅v0.16.2 Whatsnew概述。
Thanks¶
- 安德鲁·罗森费尔德
- Artemy Kolchinsky
- 伯纳德·威尔斯
- Christer van der Meeren
- 克里斯蒂安·哈东
- 康斯坦丁格伦埃文斯
- 丹尼尔·朱利叶斯·拉西曼
- 埃文·赖特
- Francesco Brundu
- Gaëtande Menten
- 杰克·范德普拉斯
- 詹姆斯·希伯特
- Jeff Reback
- Joris Van den Bossche
- Justin Lecher
- Ka Wo Chen
- 凯文谢泼德
- Mortada Mehyar
- 莫顿·福克斯
- 罗宾威尔逊
- 托马斯·格兰杰
- 汤姆Ajamian
- 汤姆·奥古斯都
- YoshikiVázquezBaeza
- 金俊贤
- 奥斯汀
- behzad nouri
- jreback
- 词汇
- rekcahpassyla
- scls19fr
- sinhrks
pandas 0.16.1¶
发布日期:(2015年5月11日)
这是一个从0.16.0的小版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.16.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.1 Whatsnew概述。
Thanks¶
- 阿方索MHC
- 安迪海登
- Artemy Kolchinsky
- 克里斯·吉尔默
- Chris Grinolds
- Dan Birken
- 大卫BROCHART
- David Hirschfeld
- 史蒂芬斯
- Dr. Leo
- 埃文·赖特
- Frans vanDunné
- Hatem Nassrat
- Henning Sperr
- Hugo Herter
- Jan Schulz
- 杰夫·布莱克本
- Jeff Reback
- 吉姆·克里斯特
- 乔纳斯·阿伯诺
- Joris Van den Bossche
- Kerby Shedden
- Leo Razoumov
- 曼努埃尔·瑞尔
- Mortada Mehyar
- 尼克·伯恩斯
- 尼克Eubank
- Olivier Grisel
- 菲利普云
- Pietro Battiston
- Roy Hyunjin韩
- 山姆张
- 斯科特桑德森
- Stephan Hoyer
- 蒂亚戈安塔
- 汤姆Ajamian
- 汤姆·奥古斯都
- Tomaz Berisa
- Vikram Shirgur
- 弗拉基米尔Filimonov
- 威廉·霍格曼
- Yasin A
- 金俊贤
- behzad nouri
- dsm054
- floydsoft
- 飞羊
- gfr
- jnmclarty
- jreback
- kangang
- 卢卡斯
- mschmohl
- ptype
- rockg
- scls19fr
- sinhrks
pandas 0.16.0¶
发布日期:(2015年3月22日)
这是0.15.2的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量错误修复。
亮点包括:
DataFrame.assign
方法,请参阅hereSeries.to_coo/from_coo
与scipy.sparse
交互的方法,请参阅here- 向
Timedelta
的向后不兼容更改符合.seconds
属性与datetime.timedelta
,请参阅here - 对
.loc
切片API的更改符合.ix
的行为,请参阅here - 更改
Categorical
构造函数中的排序默认值,请参阅here - 不推荐使用
pandas.tools.rplot
,pandas.sandbox.qtpandas
和pandas.rpy
模块。We refer users to external packages like seaborn, pandas-qt and rpy2 for similar or equivalent functionality, see here
有关已在0.16.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.16.0 Whatsnew概述或GitHub上的问题跟踪器。
Thanks¶
- Aaron Toth
- Alan Du
- Alessandro Amici
- Artemy Kolchinsky
- Ashwini Chaudhary
- 本席勒
- 比尔莱森
- 布兰德利
- 周浩
- 克里斯·雷诺兹
- 克里斯·威廉
- Christer van der Meeren
- 大卫·科特雷尔
- 史蒂芬斯
- Ehsan Azarnasab
- Garrett-R
- 纪尧姆同性恋
- 杰克Torcasso
- Jason Sexauer
- Jeff Reback
- 麦克纳马拉
- Joris Van den Bossche
- Joschka zurJacobsmühlen
- Juarez Bochi
- Junya林
- K.-Michael Aye
- Kerby Shedden
- 凯文谢泼德
- Kieran O'Mahony
- Kodi Arfer
- 马蒂·阿拉斯
- Min RK
- Mortada Mehyar
- 罗伯特
- Scott E Lasley
- Scott Lasley
- Sergio Pascual
- 船长海鸟
- Stephan Hoyer
- 托马斯·格兰杰
- 汤姆·奥古斯都
- TomAugspurger
- 弗拉基米尔Filimonov
- Vyomkesh Tripathi
- Will Holmgren
- 杨玉龙
- behzad nouri
- bertrandhaut
- bjonen
- cel4
- 克拉姆
- hsperr
- ischwabacher
- jnmclarty
- 约瑟姆
- jreback
- omtinez
- 罗奇
- sinhrks
- unutbu
pandas 0.15.2¶
发布日期:(2014年12月12日)
这是从0.15.1的次要版本,包括大量的错误修复以及几个新的功能,增强和性能改进。需要少量的API更改来修复现有的错误。
有关已在0.15.2中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.2 Whatsnew概述。
Thanks¶
- Aaron Staple
- Angelos Evripiotis
- Artemy Kolchinsky
- Benoit Pointet
- 布赖恩·雅各布斯基
- Charalampos Papaloizou
- 克里斯·沃特
- 史蒂芬斯
- Fabio Zanini
- Francesc Via
- 亨利Kleynhans
- 杰克·范德普拉斯
- Jan Schulz
- Jeff Reback
- 杰夫特拉特纳
- Joris Van den Bossche
- 凯文谢泼德
- Matt Suggit
- 马修·布雷特
- 菲利普云
- Rupert Thompson
- Scott E Lasley
- Stephan Hoyer
- 斯蒂芬·西蒙斯
- Sylvain Corlay
- 托马斯·格兰杰
- 蒂亚戈安塔
- Trent Hauck
- 维克多·查韦斯
- 维克托·萨尔加多
- Vikram Bhandoh
- 王爱勇
- Will Holmgren
- behzad nouri
- 布鲁斯利
- 夏兰花papaloizou
- immerrr
- jnmclarty
- jreback
- mgilbert
- onesandzeroes
- peadarcoyle
- rockg
- 塞特山
- sinhrks
- unutbu
- wavedatalab
- ÅsmundHjulstad
pandas 0.15.1¶
发布日期:(2014年11月9日)
这是0.15.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
有关已在0.15.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.1 Whatsnew概述。
Thanks¶
- Aaron Staple
- 安德鲁·罗森费尔德
- Anton I. Sipos
- Artemy Kolchinsky
- 比尔莱森
- 戴夫休斯
- 史蒂芬斯
- Guillaume Horel
- Jeff Reback
- Joris Van den Bossche
- 凯文谢泼德
- 尼克·斯塔尔
- Sanghee Kim
- Stephan Hoyer
- TomAugspurger
- 王爱勇
- behzad nouri
- immerrr
- jnmclarty
- jreback
- pallav-fdsi
- unutbu
pandas 0.15.0¶
发布日期:(2014年10月18日)
这是从0.14.1的主要版本,包括许多API更改,几个新功能,增强和性能改进以及大量的错误修复。
亮点包括:
- Drop support for numpy < 1.7.0 (GH7711)
Categorical
类型已集成为一类pandas类型,请参阅here- 新标量类型
Timedelta
和新的索引类型TimedeltaIndex
,请参阅here - 新的DataFrame默认显示
df.info()
以包括内存使用,请参阅Memory Usage - 有关系列的新数据类型属性访问器
.dt
,请参阅Datetimelike Properties - 将索引文档拆分为Indexing and Selecting Data和MultiIndex / Advanced Indexing
- 将字符串方法文档拆分为Working with Text Data
read_csv
现在默认会在解析时忽略空行,请参阅here- API更改在set操作中使用索引,请参阅here
Index
类不再是子类ndarray
的内部重构,请参阅Internal Refactoring- 删除小于版本3.0.0的
PyTables
和小于版本2.1(GH7990)的numexpr
有关已在0.15.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.15.0 Whatsnew概述或GitHub上的问题跟踪器。
Thanks¶
- 亚伦·舒马赫
- 亚当·格林豪尔
- 安迪海登
- 安东尼·奥布莱恩
- Artemy Kolchinsky
- behzad nouri
- Benedikt萨尔
- 本杰明
- 本杰明·Thyreau
- 本席勒
- bjonen
- BorisVerk
- 克里斯·雷诺兹
- 克里斯·斯托弗
- Dav Clark
- dlovell
- DSM
- dsm054
- FragLegs
- 德语Gomez-Herrero
- 杨晓明
- 环李
- hunterowens
- Hyungtae Kim
- immerrr
- Isaac Slavitt
- ischwabacher
- 雅各布·沙尔
- 雅各布·瓦瑟曼
- Jan Schulz
- 杰夫特拉特纳
- Jesse Farnham
- jmorris0x0
- jnmclarty
- 乔布拉迪斯
- Joerg Rittinger
- 约翰·奥布莱恩
- Joris Van den Bossche
- jreback
- 凯文谢泼德
- klonuo
- 凯尔迈尔
- 词汇
- Max Chang
- mcjcode
- 迈克尔·米勒
- Michael W Schatzow
- 麦克凯利
- Mortada Mehyar
- mtrbean
- 内森·桑德斯
- Nathan Typanski
- onesandzeroes
- 保罗·马歇尔
- 菲利普云
- Pietro Battiston
- RenzoBertocchi
- rockg
- Ross Petchler
- 塞特山
- Shahul Hameed
- Shashank Agarwal
- sinhrks
- someben
- stahlous
- stas-sl
- Stephan Hoyer
- 那个
- tom-alcorn
- TomAugspurger
- 汤姆·奥古斯都
- 托尼·洛伦佐
- 未知
- unutbu
- Wes Turner
- Wilfred Hughes
- Yevgeniy Grechka
- YoshikiVázquezBaeza
- zachcp
pandas 0.14.1¶
发布日期:(2014年7月11日)
这是一个从0.14.0的小版本,包括少量的API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
- 新方法
select_dtypes()
基于dtype和sem()
选择列来计算平均值的标准误差。 - 支持dateutil时区(请参阅docs)。
- 支持忽略
read_csv()
文本解析器中的整行注释。 - 关于Options and Settings的新文档部分。
- 大量的错误修复。
有关已在0.14.1中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.1 Whatsnew概述或GitHub上的问题跟踪器。
Thanks¶
- 安德鲁·罗森费尔德
- 安迪海登
- 本杰明·亚当斯
- Benjamin M.Gross
- Brian Quistorff
- Brian Wignall
- bwignall
- 克拉姆
- 丹尼尔·韦伯
- 大卫Bew
- 史蒂芬斯
- DSM
- dsm054
- helger
- immerrr
- 雅各布·沙尔
- jaimefrio
- Jan Schulz
- 约翰·戴维·雷弗
- 约翰·奥布莱恩
- Joris Van den Bossche
- jreback
- Julien Danjou
- 凯文谢泼德
- K.-Michael Aye
- 凯尔迈尔
- 词汇
- 马修·布雷特
- 马特·威特曼
- 迈克尔·米勒
- Mortada Mehyar
- onesandzeroes
- 菲利普云
- Rob Levy
- rockg
- sanguineturtle
- Schaer,Jacob C
- 塞特山
- sinhrks
- Stephan Hoyer
- 托马斯Kluyver
- 托德詹宁斯
- TomAugspurger
- 未知
- yelite
pandas 0.14.0¶
发布日期:(2014年5月31日)
这是从0.13.1的主要版本,包括许多API更改,几个新功能,增强功能和性能改进以及大量的错误修复。
亮点包括:
- 官方支持Python 3.4
- SQL接口已更新为使用
sqlalchemy
,请参阅here。 - 显示接口更改,请参见here
- 使用切片器的多索引,请参阅here。
- 能够使用多索引DataFrame加入单索引DataFrame,请参见here
- groupby结果和更灵活的groupby规范更加一致,请参见here
- 假日日历现在支持
CustomBusinessDay
,请参阅here - 绘图函数的几个改进,包括:hexbin,面积和饼图,请参见here。
- 有关I / O操作的性能文档部分,请参见here
有关已在0.14.0中修复的所有API更改,增强和错误的详细列表,请参阅v0.14.0 Whatsnew概述或GitHub上的问题跟踪器。
Thanks¶
- Acanthostega
- 亚当·马库斯
- agijsberts
- akittredge
- Alex Gaudio
- 亚历克斯罗斯伯格
- AllenDowney
- 安德鲁·罗森费尔德
- 安迪海登
- 安科斯蒂斯
- 异常
- 安托万Mazières
- 安东山
- bashtage
- Benedikt萨尔
- 本杰明
- 布拉德·布兰
- bwignall
- cgohlke
- chebee7i
- 克里斯托弗·威兰
- Clark Fitzgerald
- 克拉姆
- Dale Jung
- 丹艾伦
- Dan Birken
- danielballan
- 丹尼尔·韦伯
- 大卫·荣
- 史蒂芬斯
- 道格拉斯·麦克尼尔
- DSM
- Garrett Drapala
- Gouthaman Balaraman
- Guillaume Poulin
- hshimizu77
- 雨果
- immerrr
- ischwabacher
- 雅各布·霍华德
- 雅各布·沙尔
- jaimefrio
- Jason Sexauer
- Jeff Reback
- 杰弗里·斯塔尔
- 杰夫特拉特纳
- 约翰·戴维·雷弗
- 麦克纳马拉
- 约翰·奥布莱恩
- 乔纳森钱伯斯
- Joris Van den Bossche
- jreback
- jsexauer
- Julia Evans
- Júlio
- 凯蒂·阿特金森
- kdiether
- Kelsey Jordahl
- 凯文谢泼德
- K.-Michael Aye
- Matthias Kuhn
- 马特·威特曼
- 麦克斯格伦德 - 琼斯
- Michael E. Gruen
- michaelws
- mikebailey
- 麦克凯利
- 尼姑巴特拉
- 诺亚间谍
- ojdo
- onesandzeroes
- 帕特里克·奥克菲
- phaebz
- 菲利普云
- Pietro Battiston
- PKEuS
- Randy Carnevale
- ribonoous
- 罗伯特吉博邦尼
- rockg
- sinhrks
- 船长海鸟
- SplashDance
- Stephan Hoyer
- 蒂姆·切拉
- Tobias Brandt
- 托德詹宁斯
- TomAugspurger
- 汤姆·奥古斯都
- unutbu
- westurner
- 雅罗斯拉夫Halchenko
- y-p
- zach权力
pandas 0.13.1¶
发布日期:(2014年2月3日)
API Changes¶
Series.sort
在对另一个对象进行排序时会引发ValueError
(而不是TypeError
)(GH5856 ,GH5853)- Raise/Warn
SettingWithCopyError
(according to the optionchained_assignment
in more cases, when detecting chained assignment, related (GH5938, GH6025) - DataFrame.head(0)返回self而不是空框架(GH5846)
autocorrelation_plot
现在接受**kwargs
。(GH5623)convert_objects
现在接受convert_timedeltas='coerce'
参数以允许对timedeltas进行强制dtype转换(GH5458,:issue:5689 )- 将
-NaN
和-nan
添加到默认的NA值集合(GH5952)。请参阅NA Values。 NDFrame
现在有一个equals
方法。(GH5283)DataFrame.apply
will use thereduce
argument to determine whether aSeries
or aDataFrame
should be returned when theDataFrame
is empty (GH6007).
Experimental Features¶
Improvements to existing features¶
- 系列datetime / timedelta二进制操作中的perf改进(GH5801)
- option_context上下文管理器现在可用作顶级API(GH5752)
- df.info()视图现在显示每列的dtype信息(GH5682)
- df.info()现在支持选项max_info_rows,禁用大框架的空计数(GH5974)
- 对于
axis=1
,DataFramecount/dropna
- Series.str.contains现在有一个regex = False关键字,对于纯(非正则表达式)字符串模式可以更快。(GH5879)
- 支持
Series/Panel/Panel4D
上的dtypes
属性 - 扩展
Panel.apply
以允许任意函数(而不只是ufuncs)(GH1148)允许多个轴用于操作Panel
datetime
和timedelta64
的ArrayFormatter
现在根据数组中的值智能地限制精度(GH3401)pd.show_versions()
现在可以方便地报告问题。- perf improvements to Series.str.extract (GH5944)
- 在
dtypes/ftypes
方法中改进效果(GH5968) - 对象类型索引的改进(GH5968)
- 对传递给构造函数的
timedelta
的改进的类型推断(GH5458,GH5689) - 写入乳胶时转义特殊字符(:issue:5374)
- 改善
DataFrame.apply
(GH6013) pd.read_csv
和pd.to_datetime
学习了一个新的infer_datetime_format
关键字,这在很多情况下大大提高了解析perf。感谢@lexual的建议和@danbirken快速实现。(GH5490,:issue:6021)- 添加在提供特定格式(GH5361)时识别“%p”格式代码(am / pm)到日期解析器的能力
- 修复JSON IO中的性能回归(GH5765)
- 性能回归在系列索引建设(GH6150)
Bug Fixes¶
io.wb.get_countries
中的错误不包括所有国家/地区(GH6008)- 系列中的Bug替换为timestamp dict(GH5797)
- read_csv / read_table现在遵守前缀 kwarg(GH5732)。
- 通过重复索引的DataFrame失败(GH5835),通过
.ix
- 修复空数据框架(GH5808)上布尔比较的问题
- 在对象数组中处理
NaT
中的错误(GH5443) - 在传递
np.nan
或整数datelike和格式字符串(GH5863)时,to_datetime
- 在groupby中使用datetimelike(GH5869)转换错误
- 处理空系列作为索引器到系列的回归(GH5877)
- 内部缓存中的错误,与(GH5727)相关
- 测试在py3(GH5874)下从windows上的非文件路径读取JSON / msgpack的错误
- 分配到.ix [tuple(...)](GH5896)时出错
- 无法完全重建索引(GH5905)
- 带有对象dtypes(GH5914)的idxmin / max中的错误
- 在n> 5且n%5 == 0(GH5890)的情况下,在将日期添加到日期而不是偏移时,
BusinessDay
- 在通过ix(GH5928)分配到一个系列的链式系列时出错
- 在创建空DataFrame,复制,然后分配(GH5932)时出错
- 在DataFrame.tail中出现空框错误(GH5846)
- 在传播
resample
(GH5862)中的中继资料时发生错误 - 将
NaT
的字符串表示形式固定为“NaT”(GH5708) - 固定的字符串表示形式,用于显示纳秒(如果存在)(GH5912)
pd.match
未返回通过的哨兵major_axis
为MultiIndex
(GH5402)时,Panel.to_frame()
- 在
pd.read_msgpack
中错误地推断了DateTimeIndex
频率(GH5947) - 固定具有Tz感知数据时间和
NaT
(GH5961)的数组的to_datetime
- 传递具有不良数据的系列时(GH5749),滚动偏斜/峰度时出现错误
- 使用datetime索引(GH5975)中的scipy
interpolate
方法中的错误 - 在NaT比较中的错误,如果通过NaT的混合datetime / np.datetime64(GH5968)
- 如果所有输入为空(GH5742),则修复
pd.concat
的错误 - IPython的最近更改导致在QTConsole中使用以前版本的pandas时发出警告,现在已修复。如果您使用的是旧版本并需要抑制警告,请参阅(GH5922)。
- 在合并
timedelta
dtypes(GH5695)时出错 - Bug在plotting.scatter_matrix函数中。对角线和非对角线图之间的对齐错误,参见(GH5497)。
- 使用多索引通过ix(GH6018)串联回归
- 带有多索引(GH6018)的Series.xs中的错误
- Bug在具有datelike和整数的混合类型的系列构造中(应导致对象类型而不是自动转换)(GH6028)
- 在numpy 1.7.1(GH6026,GH6056)下的对象数组的链接索引时可能的segfault
- 在设置中使用花样索引将单个元素与非标量(例如列表),(GH6043)设置错误
to_sql
没有遵守if_exists
(GH4110 GH4304)- 回归
.get(None)
从0.12(GH5652)索引 - 微妙的
iloc
索引bug,出现在(GH6059) - 将字符串插入DatetimeIndex(GH5818)时出错
- to_html / HTML repr(GH6098)中的固定unicode错误
- 修正get_options_data中缺少的arg验证(GH6105)
- 位置为片段(例如,彼此相邻)(GH6120)的帧中重复列的分配错误
- 在构建具有dups索引/列(GH6121)的DataFrame期间传播_ref_locs中的错误
- 当使用混合数据类型减少(GH6125)时,在
DataFrame.apply
- 在追加包含不同列的行(GH6129)时,在
DataFrame.append
中出现错误 - 在使用recarray和非ns datetime dtype(GH6140)构建DataFrame时出错
- 错误在
.loc
setitem索引与rhs上的数据框,多项目设置和datetimelike(GH6152) - 修正了在字典字符串比较(GH6155)中
query
/eval
中的错误。 - 修复了
query
中的一个错误,其中单元素Series
的索引被丢弃(GH6148)。 - 在将带有多索引列的数据帧附加到现有表(GH6167)时,
HDFStore
中有错误 - 与dtypes在设置空DataFrame(GH6171)时的一致性
- 即使存在指定的列规格(GH6169),也无法在多索引
HDFStore
上进行选择 - 在某些平台上,
nanops.var
中的错误与ddof=1
和1个元素有时会返回inf
而不是nan
(GH6136) - 在忽略
use_index
关键字(GH6209)的Series和DataFrame条形图中出现错误 - 在groupby中使用混合str / int在python3下修复bug;
argsort
失败(GH6212)
pandas 0.13.0¶
发布日期: 2014年1月3日
New Features¶
plot(kind='kde')
现在接受传递给scipy.stats.gaussian_kde()的可选参数bw_method
和ind
> = 0.11.0)来设置带宽,并使用gkde.evaluate()来分别指定要评估的指标。参见scipy文档。(GH4298)- 向DataFrame添加了
isin
方法(GH4211) df.to_clipboard()
学习了一个新的excel
关键字,让您将df数据直接粘贴到excel中(默认启用)。(GH5070)。- 剪贴板功能现在可以与PySide(GH4282)
- 新
extract
字符串方法更方便地返回正则表达式匹配(GH4685) - 未指定时在read_fwf中自动检测字段宽度(GH4488)
to_csv()
现在通过date_format
关键字(GH4313)根据指定的格式字符串输出datetime对象- 添加了
LastWeekOfMonth
DateOffset(GH4637) - 添加了
cumcount
groupby方法(GH4646) - 添加了
FY5253
和FY5253Quarter
DateOffsets(GH4511) - 将
mode()
方法添加到Series
和DataFrame
以获取列/系列的统计模式。(GH5367)
Experimental Features¶
- 新的
eval()
函数在后台使用numexpr
实现表达式求值。这导致涉及大型DataFrames / Series的复杂表达式的大幅加速。 DataFrame
有一个新的eval()
,用于评估DataFrame
的上下文中的表达式;允许内联表达式赋值- 添加了一个
query()
方法,该方法允许您使用与Python语法几乎相同的自然查询语法来选择DataFrame
的元素。 pd.eval
and friends now evaluate operations involvingdatetime64
objects in Python space becausenumexpr
cannot handleNaT
values (GH4897).- 通过
pd.read_msgpack()
和pd.to_msgpack()
/df.to_msgpack()
添加msgpack支持用于任意pandas(和python对象)以轻便的便携式二进制格式(GH686,GH5506) - 添加了对qtpandas DataFrameModel和DataFrameWidget的PySide支持。
- 添加了
pandas.io.gbq
,用于从Google BigQuery读取(和写入)DataFrame。(GH4140)
Improvements to existing features¶
read_html
现在提出URLError
,而不是捕捉并提高ValueError
(GH4303,GH4305 t7 >)read_excel
现在在其sheetname
参数中支持一个整数,给出要读入的工作表索引(GH4301)。get_dummies
适用于NaN(GH4446)- 添加了对
read_clipboard()
和to_clipboard()
(GH4282)的测试 - 向
value_counts
(GH3945)添加了箱子参数,也排序和升序,现在可用于Series方法以及顶级函数。 - 文本解析器现在处理任何读为inf(“inf”,“Inf”,“-Inf”,“iNf”等)到无穷远。(GH4220,GH4219),影响
read_table
,read_csv
等。 - 当plot参数包含重叠的颜色和样式参数(GH4402)时,添加了更多的信息性错误消息
- 在
HDFStore
中显着改善表的写入性能 - JSON日期序列化现在在低级C代码中执行。
- 编码datetime.time的JSON支持
- 展开的JSON文档,关于orient选项的更多信息以及解码时使用numpy param。
- 将
drop_level
参数添加到xs(GH4180) - 现在可以使用ohlc(GH2320)重新取样DataFrame
Index.copy()
andMultiIndex.copy()
now accept keyword arguments to change attributes (i.e.,names
,levels
,labels
) (GH4039)- Add
rename
andset_names
methods toIndex
as well asset_names
,set_levels
,set_labels
toMultiIndex
. (GH4039,GH4794)的改善的验证(GH4039 - 现在可以将系列的
timedelta64[ns]
除以/乘以整数系列(GH4521) - 现在可以将一系列dtype
timedelta64[ns]
除以另一个timedelta64[ns]
对象,产生一个float64
这是频率转换;也支持astyping。 - Timedelta64支持
fillna/ffill/bfill
整数解释为秒,或timedelta
(GH3371) - 在
timedelta
系列(GH4984)上的方框数字操作 - Datetime64支持
ffill/bfill
- 当键为列时,
DataFrames
上的__getitem__
提高性能 - 支持在类型计算中直接使用
DatetimeIndex/PeriodsIndex
。 s-s.index(GH4629) - 更好/清除核心/通用,io / excel和核心/格式(GH4721,GH3954)中的异常,以及清除tests / test_frame中的测试用例/ test_multilevel(GH4732)。
- 使用PeriodIndex进行时间图绘制的性能改进,并将测试添加到vbench(GH4705和GH4722)
- 将
axis
和level
关键字添加到where
,以便other
参数现在可以是可对齐的pandas对象。 - 格式为'%Y%m%d'的
to_datetime
现在解析速度更快 - 现在更容易将新的Excel编写器挂接到pandas(只是子类
ExcelWriter
并注册您的引擎)。您可以在to_excel
或ExcelWriter
中指定engine
。您还可以使用config选项io.excel.xlsx.writer
和io.excel.xls.writer
来指定要使用的编写器。(GH4745,GH4750) Panel.to_excel()
现在接受将传递到其DataFrame
的to_excel()
方法的关键字参数。(GH4750)- 将XlsxWriter添加为可选的
ExcelWriter
引擎。这比默认的openpyxl xlsx写入器快约5倍,并且在速度上等同于xlwt xls写入器模块。(GH4542) - 允许DataFrame构造函数接受更多类似列表的对象,例如
collections.Sequence
和array.Array
对象(GH3783,GH4297,GH4851 t6 >),感谢@lgautier - DataFrame构造函数现在接受一个numpy掩码记录数组(GH3478),感谢@jnothman
__getitem__
withtuple
key (e.g.,[:, 2]
) onSeries
withoutMultiIndex
raisesValueError
(GH4759, GH4837)read_json
现在在字典包含错误键和orient='split'
(GH4730)时引发(更多信息性的)ValueError
t6>,GH4838)read_stata
现在接受Stata 13格式(GH4291)ExcelWriter
和ExcelFile
可用作上下文管理器。(GH3441,GH4933)pandas
现在使用两个不同版本的statsmodels
(0.4.3和0.5.0)(GH4981)进行测试。- 更好的
MultiIndex
(包括通过repr
往返的能力)的字符串表示。(GH3347,GH4935) - ExcelFile和read_excel都接受io(以前的path_or_buf)参数的xlrd.Book;这需要设置发动机。(GH4961)。
concat
现在在传递的无法连接的对象(GH4608)时会提供更多的信息错误消息。- 将
halflife
选项添加到指数加权移动函数(PR GH4998) to_dict
现在将records
视为可能的类型。返回一个列键字典数组。(GH4936)tz_localize
可以基于非本地化数据的结构(GH4230)推断秋天夏令时转换- DatetimeIndex现在在API文档中
- 改进将R数据集转换为pandas对象的支持(更多信息性索引用于时间序列和数字,支持因子,dist和高维数组)。
read_html()
现在支持parse_dates
,tupleize_cols
和thousands
参数(GH4770) 。json_normalize()
是一种新方法,允许您从半结构化JSON数据创建平面表。See the docs(GH1067)DataFrame.from_records()
现在将接受生成器(GH4910)DataFrame.interpolate()
和Series.interpolate()
已扩展为包括来自scipy的插值方法。(GH4434,GH1892)Series
现在支持to_frame
方法将其转换为单列DataFrame(GH5164)- 现在可以使用
closed
参数(GH4579)以向左或向右打开的方式构造DatetimeIndex(和date_range) - Python csv解析器现在支持usecols(GH4335)
- 添加了对支持v2 ID的Google Analytics(分析)v3 API细分ID的支持。(GH5271)
NDFrame.drop()
现在接受轴参数的名称以及整数。(GH5354)- 为一些缺少它们的方法添加了很多文档字符串+修复了Panel flex方法的docstrings。(GH5336)
NDFrame.drop()
,NDFrame.dropna()
和.drop_duplicates()
全部接受inplace
(GH1960,GH5247,GH5628和相关GH2325- 修正tools.plotting.andrews_curvres中的错误,以便按照预期按颜色绘制线条。
read_excel()
现在尝试将默认情况下将整数浮点数(如1.0
)转换为int。(GH5394)- Excel编写器现在在
to_excel()
中具有默认选项merge_cells
,以合并MultiIndex和Hierarchical Rows中的单元格。注意:使用此选项,不再可能使用合并的MultiIndex和分层行舍入Excel文件。将merge_cells
设置为False
以恢复先前的行为。(GH5254) - FRED DataReader现在接受多个系列(:issue`3413`)
- StataWriter将变量名称调整为Stata的限制(GH5709)
API Changes¶
DataFrame.reindex()
和向前/向后填充现在在任一索引不是单调的(GH4483,GH4484)时引发ValueError。pandas
现在是Python 2/3兼容,而不需要2to3感谢@jtratner。因此,pandas现在更广泛地使用迭代器。这也导致本杰明·彼得森的six
图书馆的实质性部分被引入compat。(GH4384,GH4375,GH4372)pandas.util.compat
和pandas.util.py3compat
已合并到pandas.compat
中。pandas.compat
现在包括许多允许2/3兼容性的功能。它包含range,filter,map和zip的列表和迭代器版本,以及Python 3兼容性的其他必要元素。lmap
,lzip
,lrange
andlfilter
all produce lists instead of iterators, for compatibility withnumpy
, subscripting andpandas
constructors. (GH4384,GH4375,GH4372)- 不建议使用
iterkv
,它将在以后的版本中删除(只是用于修改2to3
的iteritems的别名)。(GH4384,GH4375,GH4372) - 具有负索引器的
Series.get
现在返回与[]
(GH4390)相同 - 允许系列/数据框架/面板在任何轴上设置
ix/loc
,即使单个键当前未包含在该轴的索引中(GH2578, GH5226,GH5632,GH5720,GH5744,GH5756 - 对于compat(GH3368),
to_clipboard
的默认导出为csv,其中sep为t at
现在将放大对象inplace(并返回相同)(GH2578)DataFrame.plot
会通过传递kind='scatter'
(GH2215)HDFStore
append_to_multiple
自动同步将行写入多个表,并添加dropna
kwarg(GH4698)- 以表格格式处理传递的
Series
(GH4330) - 添加了
is_open
属性以指示底层文件是否处理is_open;关闭的商店现在将在查看商店时报告“关闭”(而不是引发错误)(GH4409) - 关闭
HDFStore
现在将关闭HDFStore
的实例,但只有在引用计数(由PyTables
)w.r.t.时才会关闭实际文件。所有打开的句柄都为0。实质上,您有一个变量引用的HDFStore
的本地实例。一旦你关闭它,它会报告关闭。其他引用(到同一文件)将继续操作,直到它们自己关闭。对封闭文件执行操作会产生ClosedFileError
- 删除
_quiet
属性,如果从表(GH4367)检索重复行,请替换为DuplicateWarning
- 从
open
删除warn
参数。如果您尝试使用OPEN文件句柄(GH4367)使用mode='w'
,则会引发PossibleDataLossError
异常 - allow a passed locations array or mask as a
where
condition (GH4467) - 将关键字
dropna=True
添加到append
以更改是否所有的行都不写入商店(默认值为True
NOT written),也可通过选项io.hdf.dropna_table
(GH4625)设置 format
关键字现在替换table
关键字;允许的值为fixed(f)|table(t)
Storer
格式已重命名为Fixed
- 将正确重建列多索引(GH4710);试图在同一个轴上使用带有data_columns的多索引
select_as_coordinates
现在将返回结果选择集的Int64Index
- 支持
timedelta64[ns]
为序列化类型(GH3577) - 存储datetime.date对象作为序数而不是timetuples以避免时区问题(GH2852),感谢@tavistmorph和@numpand
numexpr
2.2.2修复PyTables 2.4中的不兼容性(GH4908)flush
现在接受fsync
参数,其默认为False
(GH5364)table
格式(GH5386)不支持unicode
- 传递商店创作论据;可以用于支持内存存储
JSON
Index
和MultiIndex
更改(GH4039):- 直接在
MultiIndex
上直接设置levels
和labels
现已弃用。相反,您可以使用set_levels()
和set_labels()
方法。 levels
,labels
和names
属性不再返回列表,而是返回不允许设置项目的容器('mostly immutable')levels
,labels
和names
在设置时有效,复制或浅复制。- inplace设置
levels
或labels
现在可正确无效缓存的属性。(GH5238)。 __deepcopy__
现在返回数据的浅拷贝(当前:视图) - 允许元数据更改。MultiIndex.astype()
现在只允许np.object_
类似dtypes,现在返回MultiIndex
而不是Index
(GH4039)- Added
is_
method toIndex
that allows fast equality comparison of views (similar tonp.may_share_memory
but no false positives, and changes onlevels
andlabels
setting onMultiIndex
). (GH4859,GH4909) - 将
__iadd__
别名至__add__
。(GH4996) - Added
is_
method toIndex
that allows fast equality comparison of views (similar tonp.may_share_memory
but no false positives, and changes onlevels
andlabels
setting onMultiIndex
). (GH4859,GH4909)
- 直接在
- 如果
downcast='infer'
的转换和向下转换dtype传递到fillna/ffill/bfill
(GH4604) __nonzero__
对于所有NDFrame对象,现在将生成ValueError
,将回到(GH1073,GH4633)行为。将.bool()
方法添加到NDFrame
对象以方便评估单元素布尔系列DataFrame.update()
不再引发DataConflictError
,它现在将引发一个ValueError
(如有必要)(GH4732 )Series.isin()
和DataFrame.isin()
现在在传递字符串(GH4763)时引发TypeError
传递一个元素(包含字符串)的list
。- 从
read_excel
和ExcelFile
中删除未记录/未使用的kind
关键字参数。(GH4713,GH4712) NDFrame.replace()
的method
参数再次有效,因此aa列表可以传递到to_replace
(GH4743 )。- 在_reduce操作(GH3371)上提供自动dtype转换
- 如果在_reduce操作中使用datelike的混合类型排除非数字(GH3371)
- 对于
to_csv
和read_csv
,tupleize_cols
的默认值现在为False
。0.12(GH3604)中的公平警告 - 移动timedeltas支持到pandas.tseries.timedeltas.py;添加timedeltas字符串解析,添加顶层
to_timedelta
函数 NDFrame
现在与Python的toplevelabs()
函数(GH4821)兼容。- 在Series / DataFrame(例如整数/日期时间)(GH4968)上的无效比较操作上产生
TypeError
- 添加了新的索引类型,
Float64Index
。当在索引创建中传递浮动值时,将自动创建。这使得纯标签的切片范例使[],ix,loc
用于标量索引和切片工作完全相同。保留其他索引类型的索引(并且[],ix
)的位置回退,例外情况是,非Float64Index
上的索引上的浮点切片将产生TypeError
,例如Series(range(5))[3.5:4.5]
(GH263,:issue:5375) - 使分类代码更好(GH4368)
- 删除弃用的
Factor
(GH3650) - 移除已弃用的
set_printoptions/reset_printoptions
(:issue:3046
) - 删除已弃用的
_verbose_info
(GH3215) - 开始删除在
GroupBy
对象(GH4887)上无效的方法。 - 从
pandas.io.parsers
(GH3717)中删除已弃用的read_clipboard/to_clipboard/ExcelFile/ExcelWriter
- 所有非索引NDFrames(
Series
,DataFrame
,Panel
,Panel4D
,SparsePanel
,等等。),现在支持整套算术运算符和算术flex方法(add,sub,mul等)。SparsePanel
不支持使用非标量的pow
或mod
。(GH3765) - 算术func工厂现在通过实名(适合使用super)(GH5240)
- 对于诸如
np.prod(pandas_object)
之类的调用约定,使用附加关键字args(GH4435)为numpy调用提供numpy兼容性 - 提供__dir__方法(和本地上下文)为tab完成/删除ipython completers代码(GH4501)
- 通过索引操作在面板中支持非唯一轴(GH4960)
.truncate
will raise aValueError
if invalid before and afters dates are given (GH5242)Timestamp
现在支持now/today/utcnow
类方法(GH5339)- 默认为display.max_seq_len现在是100,而不是无。这在各个地方激活长序列的截断显示(“...”)。(GH3391)
- 所有除以
NDFrame
- 喜欢现在是truedivision,无论将来导入。您可以使用//
和floordiv
进行整数除法。
In [3]: arr = np.array([1, 2, 3, 4])
In [4]: arr2 = np.array([5, 3, 2, 1])
In [5]: arr / arr2
Out[5]: array([0, 0, 1, 4])
In [6]: pd.Series(arr) / pd.Series(arr2) # no future import required
Out[6]:
0 0.200000
1 0.666667
2 1.500000
3 4.000000
dtype: float64
- 检测到设置副本通过链接分配时,发出/警告
SettingWithCopyError/Warning
异常/警告,可通过选项mode.chained_assignment
- 测试csv解析器中的
NA
值列表。将N/A
,#NA
添加为独立的默认na值(GH5521) - 涉及来自
NDFrame
的``Series``的重构打破了rpy2<=2.3.8
已针对rpy2打开了一个问题,并且在GH5698中详细说明了解决方法。谢谢@JanSchulz。 Series.argmin
和Series.argmax
现在别名为Series.idxmin
和Series.idxmax
。这些分别返回min或max元素的索引。在0.13.0之前,这些将返回min / max元素的位置(GH6214)
Internal Refactoring¶
在0.13.0中有一个主要的重构,主要是从NDFrame
子类化Series
,这是当前DataFrame
和Panel
,统一方法和行为。系列以前直接从ndarray
子类化。(GH4080,GH3862,GH816)参见Internal Refactoring
- series.py/frame.py/panel.py的重构将常见代码移动到generic.py
- 添加了
_setup_axes
以创建通用NDFrame结构- 移动方法
from_axes
,_wrap_array
,axes
,ix
,loc
,iloc
,shape
,empty
,swapaxes
,transpose
,pop
__iter__
,keys
,__contains__
,__len__
,__neg__
,__invert__
convert_objects
,as_blocks
,as_matrix
,values
__getstate__
,__setstate__
(compat保留在框架/面板中)__getattr__
,__setattr__
_indexed_same
,reindex_like
,align
,where
,mask
fillna
,replace
(Series
replace现在与DataFrame
一致)filter
(也可以添加轴参数,以选择性地在不同的轴上进行过滤)reindex
,reindex_axis
,take
truncate
(移动成为NDFrame
的一部分)isnull/notnull
现在可在NDFrame
物件上使用
- 这些API更改使
Panel
与DataFrame
更一致
Panel
上指定相同轴的swapaxes
现在返回副本- 支持属性访问设置
filter
支持与原始DataFrame
过滤器相同的APIfillna
重构为core/generic.py
,而> 3ndim为NotImplemented
- 系列现在继承自
NDFrame
,而不是直接从ndarray
。有几个影响API的细微更改。
- 不支持数组接口的numpy函数现在返回
ndarrays
而不是系列,例如。np.diff
,np.ones_like
,np.where
Series(0.5)
之前会返回标量0.5
,不再支持TimeSeries
现在是Series
的别名。属性is_time_series
可以用于区分(如果需要)
- 使用BlockManager的稀疏对象的重构
- 在内部创建了一个新的块类型,
SparseBlock
,它可以容纳多个类型并且是不可合并的。SparseSeries
和SparseDataFrame
现在从其中继承了更多的方法(Series / DataFrame),并且不再继承自SparseArray
SparseBlock
)- 稀疏套件现在支持与非稀疏数据的集成。非浮动稀疏数据是可支持的(部分实现)
- 对DataFrames中的稀疏结构的操作应当保留稀疏,合并类型操作将转换为密集(并且返回稀疏),因此可能有些低效
- 在
SparseSeries
上启用setitem以获取布尔值/整数/切片SparsePanels
实现未更改(例如,不使用BlockManager,需要工作)
- 将
ftypes
方法添加到Series / DataFame,类似于dtypes
,但指示底层是稀疏/密集(以及dtype) - 所有
NDFrame
对象现在都有一个_prop_attributes
,可用于指示各种值传播到现有对象(例如Series
- 内部类型检查现在通过一套生成的类来完成,允许
isinstance(value, t> klass)
,而不必直接导入klass,courtesy的@jtratner - 系列更新中的错误,其中父框架未根据更改(GH4080,GH5216)或类型(GH3217),fillna GH3386)
- 将dtype转换的索引固定(GH4463,GH4204)
- 重构
Series.reindex
到核心/ generic.py(GH4604,GH4618),允许method=
Series.copy
不再接受order
参数,现在与NDFrame
copy- 将
rename
方法重写为core / generic.py;修复Series.rename
(GH4605),并为Panel
添加rename
- 系列(用于索引)/面板(用于项目)现在作为对其元素的属性访问(GH1903)
- 将重构
clip
方法复制到core / generic.py(GH4798) - 重写
_get_numeric_data/_get_bool_data
到core / generic.py,允许系列/面板功能 - 具有时间对象的系列算术的重构(datetime / timedelta / time等)进入一个单独的,清理包装类。(GH4613)
Series
与ndarray
的复合相容。(GH4819)- 从代码库中删除了不必要的
rwproperty
,有利于内置属性。(GH4843) - 从对象级模块到
core/generic.py
(GH4435)的重构对象级别数字方法(平均值/ sum / min / max ...)。 - 重构暨对象核心/ generic.py(GH4435),注意,这些有一个更numpy的函数签名。
read_html()
现在使用TextParser
来解析bs4 / lxml(GH4770)中的HTML数据。- 移除了
pandas/core/groupby.py
中的keep_internal
关键字参数,因为它未被使用(GH5102)。 - 基本
DateOffsets
在导入pandas时不再被实例化,而是随时生成和缓存。DateOffsets的内部表示和处理也已经澄清。(GH5189,相关GH5004) MultiIndex
构造函数现在验证传递的级别和标签是否兼容。(GH5213,GH5214)- Unity
dropna
用于Series / DataFrame签名(GH5250),测试来自GH5234,由@rockg提供 - 重写assert_almost_equal()在cython的性能(GH4398)
- 添加了内部
_update_inplace
方法,以方便更新inplace ops中的NDFrame
包装器(仅为了方便调用者,实际上不会防止复制)。(GH5247)
Bug Fixes¶
HDFStore
- 在追加不同的块排序(GH4096)时产生无效的
TypeError
而不是ValueError
read_hdf
不符合传递mode
(GH4504)- 附加0-len表将正常工作(GH4273)
to_hdf
在传递append
和table
(GH4584)- 从具有跨dtype的重复列的商店读取将升高(GH4767)
- 修正了当列名称不是字符串(GH4956)时
ValueError
未正确引发的错误 - 以固定格式写入的零长度系列未正确反序列化。(GH4708)
- 修复了pyt3上的解码perf问题(GH5441)
- 在存储之前验证多索引中的级别(GH5527)
- 使用面板(GH5717)正确处理
data_columns
- 在追加不同的块排序(GH4096)时产生无效的
- 修正了在tslib.tz_convert(vals,tz1,tz2)中的错误:它可能会引发IndexError异常,试图访问trans [pos + 1](GH4496)
- The
by
argument now works correctly with thelayout
argument (GH4102, GH4014) in*.hist
plotting methods - 修正
PeriodIndex.map
中的错误,其中使用str
将返回索引的str表示形式(GH4136) - 修复了使用自定义matplotlib默认颜色(GH4345)时测试失败
test_time_series_plot_color_with_empty_kwargs
- 修复stata IO测试的运行。现在使用临时文件写入(GH4353)
- 修复了整数值框架(GH4365)的
DataFrame.sum
慢于DataFrame.mean
的问题 read_html
测试现在可以使用Python 2.6(GH4351)- 修正
network
测试抛出NameError
的错误,因为局部变量未定义(GH4381) - 在
to_json
中,如果由于重复的索引(GH4359),传递的orient
- 在
to_json
中,修复日期处理,因此毫秒是docstring说的默认时间戳(GH4362)。 - 进行groupby apply(GH4648,GH3417)时不再忽略
as_index
- JSON NaT处理固定,NaTs现在序列化为null(GH4498)
- 固定JSON对象键中可转义字符的JSON处理(GH4593)
- 固定传递
keep_default_na=False
时na_values=None
(GH4318) - 修正了
values
在具有重复列和混合dtyf的DataFrame上出现错误(GH4377) - 修正
orient='split'
(GH4377)时,read_json
- 固定的JSON错误,当编码/解码某些值时,带有“。”以外的十进制分隔符的语言环境会抛出异常。(GH4918)
- 使用
PeriodIndex
(GH4390)修正.iat
- 修复了
PeriodIndex
与self加入正在返回新实例而不是同一实例(GH4379)的问题;还为其他索引类型添加了一个测试 - 修复了当使用带有usecols参数(GH3192)的CSV cparser时,所有转换为对象的dtypes的错误
- 修复合并块中的问题,其中生成的DataFrame已部分设置_ref_locs(GH4403)
- 修正了一个问题,当使用顶层matplotlib API(GH4408)调用hist子图时,
- 修正了调用
Series.astype(str)
会截断字符串(GH4405,GH4437)的错误 - 修复了一个py3兼容问题,其中字节被表示为元组(GH4455)
- 固定面板属性命名冲突,如果项目命名为'a'(GH3440)
- 修正了绘图时重复索引的问题(GH4486)
- 修复了一个问题,其中cumsum和cumprod没有使用bool dtypes(GH4170,GH4440)
- 在
xs
中发出的固定面板切片返回了不正确的暗淡对象(GH4016) - 修复重采样错误,如果只有一个组(GH3849,GH4494)不使用自定义缩减功能
- 带转置帧的固定面板分配(GH3830)
- 使用面板和面板作为需要对齐的值(GH3777)设置索引
- 现在在
Series
构造函数(GH4482,GH4480)中 - 修复了排序具有多个dtypes(GH4516)的重复多索引的问题
- 修复
DataFrame.set_values
中的错误,导致在扩展索引时名称属性丢失。(GH3742,GH4039) - Fixed issue where individual
names
,levels
andlabels
could be set onMultiIndex
without validation (GH3714, GH4039) - 在pivot_table中修正(GH3334)。边距不计算值是否为索引。
- 修正在使用数据时间(GH4532)时具有
np.timedelta64
或np.offsets.DateOffset
的rhs的错误 - 修复与series / datetimeindex和
np.timedelta64
不兼容算法(GH4134)和buggy timedelta在numpy 1.6(GH4135 - 修复PY3(GH4561)窗口中
pd.read_clipboard
中的错误无法正确解码 tslib.get_period_field()
和tslib.get_period_field_arr()
现在提高代码参数超出范围(GH4519,GH4520 t5 >)- 修复空序列上的布尔索引丢失索引名称(GH4235),infer_dtype使用空数组。
- 修复多轴的重建索引;如果轴匹配不替换当前轴,导致可能的拉兹频率推理问题(GH3317)
- 修复了
DataFrame.apply
不正确地重新处理异常(导致原始堆栈跟踪被截断)的问题。 - Fix selection with
ix/loc
and non_unique selectors (GH4619) - 修复了在现有列(GH4312,GH5702)中涉及dtype更改的iloc / loc的分配在内核/索引中具有内部setitem_with_indexer,以使用Block.setitem
- 修正了在csv_import(GH4322)中浮点数不正确处理数千个运算符的错误
- 修复了一个问题,CacheableOffset没有正确地被许多DateOffset使用;这阻止了对DateOffset的缓存(GH4609)
- 修复与lhs上的DataFrame的布尔比较,以及rhs(GH4576)上的列表/元组
- 在
Series/DataFrame
(GH4667)上使用setitemNone
修复错误/ dtype转换 - 根据
pd.read_stata
(GH4626)中传递的非默认编码解决解码问题 - 使用普通的
ndarray
修复DataFrame.from_records
。(GH4727) - 解决与
Index.rename
和MultiIndex.rename
等不一致的问题。(GH4718,GH4628) - 使用具有横截面和重复标记(GH4726)的
iloc/loc
时出错 - 使用
QUOTE_NONE
并使用to_csv
导致Exception
,可能会出现错误。(GH4328) - 带有系列索引的错误,当右侧的长度不正确时不会出错(GH2702)
- 在多索引中出现错误,部分字符串选择作为MultIndex(GH4758)的一部分
- 在带有非唯一索引的索引上重建索引的错误现在将引发
ValueError
(GH4746) - 使用
loc/ix
设置具有多索引轴和numpy数组的单个索引器(GH3777)时出错 - 错误连接的重复列跨dtypes不合并轴= 0(GH4771,GH4975)
- 在
iloc
中错误切片索引失败(GH4771) - 不正确的错误消息,在
read_fwf
中没有colspecs或width。(GH4774) - 修复索引中重复索引的系列中的错误(GH4548,GH4550)
- 修正在Python 3中使用
read_fwf
读取压缩文件的错误。(GH3963) - 修复了重复索引和具有dtype更改的分配(GH4686)的问题
- 修复了在Python 3中读取压缩文件为
bytes
而不是str
的错误。简化Python 3(GH3963,GH4785)中产生字节的文件处理。 - 修正了一个与ticklocs / ticklabels相关的问题,在不同版本的matplotlib(GH4789)
- 与repr()发出的内部调用相关联的抑制拒绝警告(GH4391)
- 修复了重复索引和重复选择器(
.loc
(GH4825)的问题) - 修复了
DataFrame.sort_index
的问题,其中,当通过单个列排序并传递ascending
的列表时,ascending
的参数被解释作为True
(GH4839,GH4846) - 固定
Panel.tshift
不工作。添加了freq支持Panel.shift
(GH4853) - 使用千!!=“,”(GH4596)修复了TextFileReader w / Python引擎(即PythonParser)中的问题
- 使用where(GH4879)时,getitem中的错误重复索引
- 修复类型推理代码将float列强制转换为datetime(GH4601)
- 固定
_ensure_numeric
不检查复数(GH4902) - 修复了
Series.hist
中的一个错误,其中通过by
参数创建了两个数字(GH4112,GH4113 t5 >)。 - 修正了
convert_objects
中为> 2 ndims(GH4937)的错误 - 修复了DataFrame / Panel缓存插入和后续索引中的错误(GH4939,GH5424)
- 修复
FrozenNDArray
和FrozenList
(GH4929)的字符串方法 - 修正了在索引放大场景(GH4940)中设置无效或超出范围值的错误
- 空系列测试(GH4346),感谢@immerrr
- 将
copy()
固定到浅复制轴/索引,从而保持单独的元数据。(GH4202,GH4830) - 在Python解析器中为read_csv(GH4382)修复了跳过选项
- 修复阻止
cut
使用np.inf
级别而未显式传递标签的错误(GH3415) - 在
DatetimeIndex.union
(GH4564)中修复错误的重叠检查 - 修复了csv_parser(GH4678)中的千位分隔符和日期解析器之间的冲突
- 修复附加在dtypes不一样(错误显示混合float / np.datetime64)(GH4993)
- 修复了DateOffset的repr。不再在kwds中显示重复条目。删除未使用的偏移字段。(GH4638)
- 如果使用usecols,在read_csv期间修正错误的索引名称。仅适用于c解析器。(GH4201)
Timestamp
对象现在可以出现在使用Series
或DataFrame
对象(GH4982 )。- 修复在通过
iloc/loc
(GH5016)通过np.nan
- 修复了低内存c解析器可以在同一文件的不同块中创建不同类型的错误。现在强制为数字类型或引发警告。(GH3866)
- 修复了将
Series
重新塑造为其自身形状引起TypeError
(GH4554)和其他重塑问题的错误。 - 使用
ix/loc
和混合int /字符串索引(GH4544)设置错误 - 确保系列系列布尔比较是基于标签的(GH4947)
- 在使用Timestamp部分索引器(GH4294)的多级索引中出现错误
- 对全纳帧(GH4078)的多索引构造的测试/修复
- 修复了
read_html()
无法使用逗号(GH5029)正确推断表格值的错误 - 修复了
read_html()
未提供返回表(GH4770,GH5029)的稳定排序的错误。 - 修复了
read_html()
在传递index_col=0
(GH5066)时解析不正确的错误。 - 修复了
read_html()
错误地推断标题类型(GH5048)的错误。 - 修复了
DatetimeIndex
与PeriodIndex
联接导致堆栈溢出(GH3899)的错误。 - 修复了
groupby
对象不允许绘图(GH5102)的错误。 - 修复了
groupby
对象不是制表符完成列名称(GH5102)的错误。 - 修复了
groupby.plot()
和朋友多次重复图形(GH5102)的错误。 - 提供自动转换
object
在fillna上的dtypes,相关(GH5103) - 修复了在选项解析器清理(GH5121)中覆盖默认选项的错误。
- 将list / ndarray与list-like(GH5006)相同地用于
iloc
- 修正缺少值的
MultiIndex.get_level_values()
(GH5074) - 修复对datetime64输入(GH4065)的Timestamp()的边界检查
- 修复
TestReadHtml
未调用正确的read_html()
函数(GH5150)的错误。 - 修复了使用正则表达式(GH5143)表示为(不正确)的
NDFrame.replace()
的错误。 - 修正to_datetime(GH4928)的错误讯息
- 确保在travis-ci(GH4918)上测试不同的语言环境。还添加了一些用于获取语言环境和使用上下文管理器设置语言环境的实用程序。
- 在
isnull(MultiIndex)
上修复了错误(现在出现错误)(GH5123,GH5125 - 在执行对齐操作(GH5185,GH5639)时允许重复索引
- 构造函数中的复合类型引发
NotImplementedError
(GH5191) - 比较重复帧(GH4421)时出现错误
- 错误在重复帧描述
- 在
to_datetime
中出现格式错误,coerce=True
不提高(GH5195) - 在
loc
中设置多个索引器和需要广播的系列的rhs(GH5206) - 修正了
MultiIndex
上的级别或标签的内置设置不会清除缓存的values
属性,因此返回错误的values
的错误。(GH5215) - 修正了过滤分组的DataFrame或系列没有保持原始排序(GH4621)的问题。
- 固定
Period
,其业务日期为freq,以便在非营业日期总是前滚。(GH5203) - 修复了在Excel写作器中,具有重复列名称的框架未正确写入的错误。(GH5235)
- 修复了
drop
的问题,以及系列上的非唯一索引(GH5248) - C解析器中的固定seg故障是由于传递的文件名比列中的文件名多。(GH5156)
- 修正
Series.isin
与日期/时间样dtypes(GH5021) - C和Python Parser现在可以处理更常见的多索引列格式,它没有索引名称的行(GH4702)
- 尝试使用超出边界日期作为对象dtype(GH5312)时出现错误
- 尝试显示嵌入PandasObject(GH5324)时出现错误
- 如果结果超出界限(GH5312),则允许操作Timestamps返回日期时间
- 修复
initObjToJSON()
的返回值/类型签名以与numpy的import_array()
(GH5334,GH5326 ) - 在重命名时,在DataFrame(GH5344)上设置set_index时出现错误
- 测试套件不再在测试图形时留下临时文件。(GH5347)(感谢捕捉这个@yarikoptic!)
- 修复了win32上的html测试。(GH4580)
- 确保
head/tail
基于iloc
,(GH5370) - 修正
PeriodIndex
字符串表示的错误,如果有1或2个元素。(GH5372) - GroupBy方法
transform
和filter
可用于具有重复(非唯一)索引的Series和DataFrames。(GH4620) - 修复空白系列不在repr中打印名称(GH4651)
- 默认情况下,使测试在temp目录中创建临时文件。(GH5419)
- 标量的
pd.to_timedelta
返回标量(GH5410) pd.to_timedelta
接受NaN
和NaT
,返回NaT
而不是提高(GH5437 )- 对较大尺寸的熊猫对象的性能提升
isnull
- 修复了与索引器长度不匹配的1d ndarray的各种setitem(GH5508)
- 在getitem中使用多索引和
iloc
(GH5528)中的错误 - 在系列上的缺陷错误(GH5542)
- 使用自定义函数时未应用修正错误(GH5545)
- 无法使用
loc
(GH5553)从非唯一索引中进行选择 - 当用户函数返回
None
,(GH5592)时,groupby中的错误返回非一致类型 - 解决numpy 1.7.0中的回归,错误地从
ndarray.item
(GH5666)提高IndexError - 在对结果非唯一索引(GH5678)的对象重复索引时出错
- 在系列和通过的系列/ dict(GH5703)中的错误
- 使用类datetime变星的groupby变换中的错误(GH5712)
- 使用某些键(GH5725)时,在PY3中的多索引选择中出错
- 在某些情况下(GH5754)不同类型的逐行级联失败
pandas 0.12.0¶
发布日期: 2013-07-24
New Features¶
pd.read_html()
现在可以解析HTML字符串,文件或网址,并返回DataFrame
的列表由@cpcloud提供。(GH3477,GH3605,GH3606)- 支持读取Amazon S3文件。(GH3504)
- 添加了读取和写入JSON字符串/文件的模块:pandas.io.json包括
to_json
DataFrame / Series方法和read_json
顶级读取器各种问题(GH1226,GH3804,GH3876,GH3867,GH1305) - 添加了用于读取和写入Stata文件的模块:pandas.io.stata(GH1512)包括
to_stata
DataFrame方法和read_stata
- 添加了对在
to_csv
中写入并读入read_csv
多索引列的支持。read_csv
中的header
选项现在接受从中读取索引的行的列表。添加了选项tupleize_cols
以提供对通过元组列表写入和读取多索引列的前0.12行为的兼容性。在0.12中的默认值是写入元组列表,并且不将元组列表解释为多索引列。注意:默认值将更改为0.12,以使默认的到以新格式写入和读取多索引列。(GH3571,GH1651,GH3141) - 将迭代器添加到
Series.str
(GH3638) pd.set_option()
现在允许N个选项,值对(GH3667)。- 为不同类型的scatter_matrix子图添加了关键字参数
- 分组的Series或DataFrames上的
filter
方法返回原始子集(GH3680,GH919) - 访问pandas.io.data中的历史Google财经数据(GH3814)
- DataFrame绘图方法可以通过
colormap
关键字从Matplotlib色彩映射采样列颜色。(GH3860 T0>)
Improvements to existing features¶
- 修复了内部打印代码的各种问题,包括TimeStamp和Index的各种对象的repr()现在生成有效的python代码字符串,并可用于重新创建对象(GH3038,GH3379 ,GH3251,GH3460)
convert_objects
现在接受copy
参数(默认为True
)HDFStore
- 将模运算符添加到Series,DataFrame
- 将
date
方法添加到DatetimeIndex - 将
dropna
参数添加到pivot_table(:issue:3820) - 简化API并将describe方法添加到Categorical
melt
现在接受可选参数var_name
和value_name
以指定返回的DataFrame(GH3649)的自定义列名称,感谢@hoechenberger。如果未指定var_name
且dataframe.columns.name
不为None,那么将用作var_name
(GH4144 )。还支持MultiIndex列。- 剪贴板函数使用pyperclip(Windows上没有依赖项,Linux提供的替代依赖项)(GH3837)。
- 如果关联对象的类型为
object
(GH1818,GH3572),绘图函数现在在尝试绘制任何内容之前引发TypeError
/ t5>,GH3911,GH3912),但是如果可能,它们会尝试将对象数组转换为数字数组,以便您仍然可以绘制浮动。这发生在任何绘图发生之前,消除任何虚假的图表出现。 - 添加常见问题部分repr显示选项,以帮助用户自定义他们的设置。
where
导致块分裂的操作要快得多(GH3733)- Series和DataFrame hist方法现在采用
figsize
参数(GH3834) - DatetimeIndexes不再尝试在连接操作期间转换混合整数索引(GH3877)
- Add
unit
keyword toTimestamp
andto_datetime
to enable passing of integers or floats that are in an epoch unit ofD, s, ms, us, ns
, thanks @mtkini (GH3969) (e.g. unix timestamps or epochs
, with fractional seconds allowed) (GH3540) - DataFrame corr方法(spearman)现在被cythonized。
- 改进
network
测试装饰器捕获IOError
(因此也URLError
)。添加了with_connectivity_check
装饰器,以允许显式检查网站作为代理,以查看是否存在网络连接。另外,新的optional_args
装饰工厂。(GH3910,GH3914) read_csv
现在会在文件不包含列时抛出更多的信息错误消息,例如,所有换行符- 添加了
layout
关键字到DataFrame.hist()以获得更多可自定义布局(GH4050) - Timestamp.min和Timestamp.max现在代表有效的Timestamp实例,而不是默认的datetime.min和datetime.max(感谢@SleepingPills)
read_html
现在在没有找到表并且检测到BeautifulSoup == 4.2.0时发生(GH4214)
API Changes¶
HDFStore
- (Multi)Index的repr()现在遵循display.max_seq_items而不是numpy阈值打印选项。(GH3426,GH3466)
- 向read_table / csv添加了mangle_dupe_cols选项,允许用户控制旧版行为(A,A.1,A.2与A,A)(GH3468)注意:默认值将更改为0.12到“no mangle”行为,如果您的代码依赖此行为,请在调用中显式指定mangle_dupe_cols = True。
- Do not allow astypes on
datetime64[ns]
except toobject
, andtimedelta64[ns]
toobject/int
(GH3425) datetime64
dtypes的行为相对于某些所谓的缩减操作(GH3726)已经改变。The following operations now raise aTypeError
when performed on aSeries
and return an emptySeries
when performed on aDataFrame
similar to performing these operations on, for example, aDataFrame
ofslice
objects: - sum, prod, mean, std, var, skew, kurt, corr, and cov- 除非使用有效类型(例如,不能通过
datetime64[ms]
)(GH3423),否则不允许创建datetimelike / timedeltalike - 如果组是唯一的,请将
squeeze
关键字添加到groupby
以允许从DataFrame - > Series中减少。从0.10.1回归,部分恢复(GH2893)与(GH3596) - 在使用基于标签的索引器掩码的布尔索引时,在
iloc
上提高一个布尔系列,甚至带有整数标签,将提高。由于iloc
纯粹基于位置,所以系列上的标签不可对齐(GH3631) raise_on_error
选项绘制方法由GH3572消除,因此被删除。当数据无法绘制或绘制的对象具有object
的dtype时,绘图始终会提高。DataFrame.interpolate()
现已弃用。Please useDataFrame.fillna()
andDataFrame.replace()
instead (GH3582, GH3675, GH3676).DataFrame.replace()
的method
和axis
参数已弃用DataFrame.replace
的infer_types
参数已删除,现在默认执行转换。(GH3907)- deprecated display.height,display.width现在只是一个格式化选项不控制摘要的触发,类似
- 将
allow_duplicates
添加到DataFrame.insert
以允许在True
时插入重复的列,默认值为False
(与0.12之前相同)(GH3679) - io API更改
- 为i / o导入添加了
pandas.io.api
- 已删除
Excel
支持pandas.io.excel
- 添加的顶层
pd.read_sql
和to_sql
DataFrame方法 - 已删除
clipboard
支持pandas.io.clipboard
- replace top-level and instance methods
save
andload
with top-levelread_pickle
andto_pickle
instance method,save
andload
will give deprecation warning.
- 为i / o导入添加了
DataFrame.replace()
的method
和axis
参数已弃用- 将FutureWarning设置为需要data_source,并在pandas.io选项中使用到期日替换年/月。正在准备从Google添加选项数据(GH3822)
DataFrame.replace()
的method
和axis
参数已弃用- 为
NDFrame
对象(GH3691,GH3696)实施__nonzero__
- 具有混合有符号和无符号dtypes的
as_matrix
将导致2 x无符号的lcd作为int,最大与int64
,以避免精度问题(GH3733 ) read_csv/read_excel
提供的列表中的na_values
将匹配字符串和数字版本。na_values=['99']
将匹配99列是否为int,float或string(GH3611)read_html
现在在阅读时默认为None
,当lxml无法解析时,返回bs4
+html5lib
。直到成功为止的解析器列表也是有效的- to_datetime返回类型更多的一致性(给字符串/字符串输入数组)(GH3888)
- 内部
pandas
类层次结构已更改(略)。The previousPandasObject
now is calledPandasContainer
and a newPandasObject
has become the baseclass forPandasContainer
as well asIndex
,Categorical
,GroupBy
,SparseList
, andSparseArray
(+ their base classes). 目前,PandasObject
提供字符串方法(从StringMixin
)。(GH4090,GH4092) - 新
StringMixin
,给定一个__unicode__
方法,获得python2和python3兼容的字符串方法(__str__
,__bytes__
,和__repr__
)。加上字符串安全。现在在整个熊猫图书馆的许多地方。(GH4090,GH4092)
Bug Fixes¶
- 修正了一个深奥的excel阅读错误,xlrd> = 0.9.0现在需要excel支持。应该提供python3支持(用于阅读),一直缺乏。(GH3164)
- Disallow系列构造函数调用MultiIndex导致segfault(GH4187)
- 允许共享时区的日期范围的合并(GH3491)
- 修正某些列(GH3437)中包含大量行和
NaT
的to_csv问题 .loc
在传递整数列表(GH3449)时未提升- 使用标签切片(GH3448)时,无序的时间序列选择是错误的
- 在包含datetime64 [ns] dtypes(GH3461)的列列表中修复排序
- 通过FRED获取的DataFrames现在处理'。'作为NaN。(GH3469)
- 在DataFrame中修复回归,适用于axis = 1,对象未正确转换回基本类型(GH3480)
- 修复在HDFStore中存储uint dtypes时出现的问题。(GH3493)
- 非唯一索引支持已澄清(GH3468)
- 处理df.to_csv新旧的dupe列(GH3454,GH3457)
- 修复为DataFrame中的重复索引分配新索引失败(GH3468)
- 修复具有重复索引的DataFrame的构造
- ref_locs支持允许跨dtypes重复索引,允许iget支持总是找到索引(甚至跨dtypes)(GH2194)
- 在具有非唯一索引的DataFrame上应用映射现在起作用(删除警告)(GH2786),并修复(GH3230)
- 修正to_csv以处理非唯一列(GH3495)
- 使用getitem重复索引将按正确顺序(GH3455,GH3457)返回项目,并处理缺少的元素,如唯一索引(GH3561)
- 具有和空DataFrame.from_record的重复索引将返回正确的帧(GH3562)
- Concat生成非唯一列,当重复是跨dtypes是固定的(GH3602)
- 通过
loc
和朋友固定(GH3659)切片的非唯一索引 - 允许插入/删除非唯一列(GH3679)
- 扩展
reindex
以正确处理非唯一索引(GH3679) DataFrame.itertuples()
现在可用于具有重复列名称的框架(GH3873)- 在通过
iloc
(GH4017)的非唯一索引中出现错误;为reindex
添加了takeable
参数,以进行基于位置的拍摄 - 通过
.ix/.loc
和__getitem__
(GH4246)允许非唯一索引 - 使用
.ix/.loc
(GH4280)修复非唯一索引内存分配问题
- 修正了在分配之前引用变量的空系列的groupby中的bug。(GH3510)
- 允许在groupby中为非MultiIndex(GH4014)使用索引名称
- 修正了对齐系列的混合框架分配错误(GH3492)
- 从系列中选择月/季/年的固定错误不会在最后一天选择时间元素(GH3546)
- 修复了df.to_html()(GH3547,GH3553)中的一些MultiIndex渲染错误
- 正确转换系列中的np.datetime64对象(GH3416)
- 在无效的datetime / timedelta操作上提升
TypeError
例如添加数据时间,多个timedelta x datetime - 在datelike和timedelta操作(GH3100)上修复
.diff
combine_first
在可能的情况下不会返回相同的dtype(GH3552)- 修正
Panel.transpose
引数别名(GH3556)的错误 - 在
PeriodIndex.take
(GH3579)中修正平台错误 - 固定在
combine_first
(GH3593)中的datetime64 [ns] - 修复多索引(GH3586)中
NaN
的reset_index中的错误 - 当
value
参数是list
或tuple
时,fillna
方法现在产生TypeError
。 - 修正了选择时间序列而不是帧中的实际列名称(GH3594)的错误
- 使secondary_y正常工作(bar)(GH3598)
- Fix modulo and integer division on Series,DataFrames to act similary to
float
dtypes to returnnp.nan
ornp.inf
as appropriate (GH3590) - 使用
as_index=False
(GH3610)修正groupby上的不正确dtype - 修正
read_csv/read_excel
可正确编码相同的na_values,例如na_values=[-999.0,-999]
失败(GH3611) - 在qtconsole中再次禁用HTML输出。(GH3657)
- 重新编写新的repr显示逻辑,用户发现混乱。(GH3663)
- 修复索引问题ndim> = 3与
iloc
(GH3617) - 当指定
parse_dates
(GH3062)时,正确解析read_csv
中的嵌入式日期列(nan / NaT)为datetime64 [ns] dtype - 修复在to_csv(GH3624)之前无法合并
- setitem在DataFrame中使用一个DataFrame(GH3626)或混合DataFrame和系列(GH3668)修复对齐问题时,
- 修正无序DatetimeIndex(GH3601)的绘图
sql.write_frame
在将单列写入sqlite(GH3628)时失败,感谢@stonebig- 在索引中修改
nan
的旋转(GH3558) - 修复bs4测试未安装时的运行情况(GH3605)
- 修复html表的解析(GH3606)
read_html()
现在只允许一个后端:html5lib
(GH3616)convert_objects
与convert_dates='coerce'
将一些单字母字符串解析为今天的日期DataFrame.from_records
不接受空重复列表(GH3682)DataFrame.to_csv
将会成功使用已弃用的选项nanRep
,@tdsmithDataFrame.to_html
和DataFrame.to_latex
现在接受第一个参数的路径(GH3702)- 使用r定界符和引号字段修复文件标记化错误(GH3453)
- Groupby转换,逐项不正确转换(GH3740)
- 不正确地读取具有列规范(GH3748)的HDFStore多索引帧
read_html
现在可正确跳过测试(GH3741)- PandasObjects在尝试散列时引发TypeError(GH3882)
- 修复传递给concat的不是列表类型的不正确参数(例如concat(df1,df2))(GH3481)
- 在传递
read_csv
(GH3795)中的dtype=str
(或其他变量连字符串dtypes)时正确解析 - 修复使用
loc/ix
(GH3880)时传播的索引名称 - 修复groupby当应用自定义函数导致返回的DataFrame没有转换dtypes(GH3911)
- 修复了在
to_replace
参数中编译的正则表达式中DataFrame.replace
无效的错误(GH3907) - 修复了安装了
numexpr
的Python 2.7中的__truediv__
,以便在将至少包含10000个单元格的整数数组(GH3764 - 使用未从时间索引中选择的秒分辨率的字符串索引(GH3925)
- 如果
iterator=True
但没有指定chunksize
(GH3967),csv解析器将无限循环,python解析器失败与chunksize=1
- 修复使用
shift
时不传播的索引名称 - 固定dropna =使用多索引堆栈忽略False(GH3997)
- 重命名MultiIndex列时固定列的平展数据DataFrame(GH4004)
- 修正datetime系列的
Series.clip
。NA / NaN阈值现在将抛出ValueError(GH3996) - 修正了插入问题到DataFrame,重命名后(GH4032)
- 固定测试问题,其中过多的套接字打开,因此导致连接重置问题(GH3982,GH3985,GH4028,GH4054 )
- 在未检索符号但正在访问符号的情况下(GH3982,GH3985,GH4028,GH4054 )
Series.hist
现在将从当前环境中获取数字(如果没有通过)- 修复了1xN DataFrame在1xN掩码(GH4071)上出现的错误
- 固定在python3下运行
tox
,其中pickle导入以不兼容的方式重写(GH4062,GH4063) - 修正了sharex和sharey没有传递给grouping_hist的bug(GH4089)
- 修复由于磁盘上不同块排序(GH4096)而导致
HDFStore
无法附加的错误 - 将不兼容的列插入帧时出现错误消息更好(GH4107)
- 修正
DataFrame.replace
中的错误,其中当regex = False(GH4115)时,不会迭代嵌套的字典 - 修正
convert_objects(convert_numeric=True)
中的错误,其中混合数字和对象系列/帧无法正确转换(GH4119) - 修正了多索引选择与列多索引和重复(GH4145,GH4146)的错误
- 修正在
to_datetime
(GH4152)中使用format
参数时解析微秒的错误 - 修正
PandasAutoDateLocator
中的错误invert_xaxis
不正确触发MilliSecondLocator
(GH3990) - 修正
Series.where
中的错误,其中将单元素输入向量广播到序列的长度导致将输入内的值相乘(GH4192) - 修正了在matplotlib 1.1.1(GH4215)的无效颜色映射上绘制的错误
- 修正在
DataFrame.plot(kind='kde')
(GH4216)中显示的图例 - 修正索引片没有携带名称属性(GH4226)的错误
- 修正了在特定时区(GH4229)中使用字符串数组初始化
DatetimeIndex
- 修正了html5lib未被正确跳过的问题(GH4265)
- 修正get_data_famafrench未使用正确档案边缘的错误(GH4281)
pandas 0.11.0¶
发布日期: 2013-04-22
New Features¶
- 新文档部分,
10 分钟 到 Pandas
- 新文档部分,
Cookbook
- 允许混合的Dtypes(例如
float32/float64/int32/int16/int8
)在DataFrames中共存,并在操作中传播 - 添加函数到pandas.io.data用于从Yahoo!检索股票指数组件金融(GH2795)
- 支持使用时间对象进行切片(GH2681)
- 添加
.iloc
属性,以支持严格整数索引,类似于.ix
(GH2922) - 添加了
.loc
属性,以支持严格的基于标签的索引,类似于.ix
(GH3053) - 添加了
.iat
属性,支持通过整数快速进行标量访问(替换iget_value/iset_value
) - 添加了
.at
属性,以支持通过标签进行快速标量访问(替换get_value/set_value
) - 将功能从
irow,icol,iget_value/iset_value
移至.iloc
索引器(通过每个对象中的_ixs
方法) - 添加了对使用
numexpr
库的表达式求值的支持 - 添加
convert=boolean
到take
例程将负索引翻译为正,默认为True - 将to_series()方法添加到索引,以方便创建索引器(GH3275)
Improvements to existing features¶
在某些情况下,将df.to_csv()的性能提高了10倍。(GH3059)
将
blocks
属性添加到DataFrames,将dtypes的dict返回到均匀分类的DataFrames添加关键字
convert_numeric
到convert_objects()
尝试将对象dtypes转换为数字类型(默认值为False)convert_objects
中的convert_dates
现在可以是coerce
,将返回一个datetime64 [ns] dtype,其中不可转换设置为NaT
默认情况下,系列打印输出包括dtype
describe_option()
现在报告选项的默认值和当前值。将
format
选项添加到pandas.to_datetime
,可以更快地转换可以使用datetime.strptime解析的字符串为了兼容性,将
axes
属性添加到Series
为了兼容性,将
xs
函数添加到Series
在只有混合数字的框架中允许setitem(例如int和float),(GH3037)
HDFStore
添加
squeeze
方法可能从对象中删除长度1维度。In [1]: p = pd.Panel(np.random.randn(3,4,4),items=['ItemA','ItemB','ItemC'], ...: major_axis=pd.date_range('20010102',periods=4), ...: minor_axis=['A','B','C','D']) ...: In [2]: p Out[2]: <class 'pandas.core.panel.Panel'> Dimensions: 3 (items) x 4 (major_axis) x 4 (minor_axis) Items axis: ItemA to ItemC Major_axis axis: 2001-01-02 00:00:00 to 2001-01-05 00:00:00 Minor_axis axis: A to D In [3]: p.reindex(items=['ItemA']).squeeze() Out[3]: A B C D 2001-01-02 0.469112 -0.282863 -1.509059 -1.135632 2001-01-03 1.212112 -0.173215 0.119209 -1.044236 2001-01-04 -0.861849 -2.104569 -0.494929 1.071804 2001-01-05 0.721555 -0.706771 -1.039575 0.271860 In [4]: p.reindex(items=['ItemA'],minor=['B']).squeeze() Out[4]: 2001-01-02 -0.282863 2001-01-03 -0.173215 2001-01-04 -2.104569 2001-01-05 -0.706771 Freq: D, Name: B, dtype: float64
改进
pd.io.data.Options
(GH2758)中的Yahoo API访问添加选项display.max_seq_items以控制打印每个序列打印的元素数量。(GH2979)
添加选项display.chop_threshold以控制小数值的显示。(GH2739)
添加选项display.max_info_rows以防止为1M以上的帧(可配置)的帧计算verbose_info。(GH2807,GH2918)
value_counts()现在接受归一化直方图的“normalize”参数。(GH2710)。
DataFrame.from_records现在不仅接受dicts,而且接受collections.Mapping ABC的任何实例。
允许通过具有类型索引的字符串在Series和DataFrames(GH3070)中工作的选择语义
In [5]: idx = pd.date_range("2001-10-1", periods=5, freq='M') In [6]: ts = pd.Series(np.random.rand(len(idx)),index=idx) In [7]: ts['2001'] Out[7]: 2001-10-31 0.838796 2001-11-30 0.897333 2001-12-31 0.732592 Freq: M, dtype: float64 In [8]: df = pd.DataFrame(dict(A = ts)) In [9]: df['2001'] Out[9]: A 2001-10-31 0.838796 2001-11-30 0.897333 2001-12-31 0.732592
添加选项display.mpl_style为地块提供更时尚的视觉样式。基于https://gist.github.com/huyng/816622(GH3075)。
通过考虑数组的内存排序,提高了几个核心功能的性能。感谢@stephenwlin(GH3130)
改善groupby变换方法的性能(GH2121)
处理“ragged”CSV文件在缺少字段的行中缺少尾部分隔符,同时还提供了列名的明确列表(因此解析器知道结果中需要多少列)(GH2981)
在混合数据框架上,允许在rhs(GH3216)上使用ndarray / DataFrame设置索引器
将布尔值视为整数(值1和0)用于数字运算。(GH2641)
将
time
方法添加到DatetimeIndex(GH3180)对于不够长的值(GH3223)使用Series.str [...]时,返回NA
在时间序列图中显示光标坐标信息(GH1670)
to_html() now accepts an optional “escape” argument to control reserved HTML character escaping (enabled by default) and escapes
&
, in addition to<
and>
. (GH2919)
API Changes¶
无论平台如何,列表和标量的DataFrame构造,没有dtype存在,将导致转换到
int64
或float64
。这不是API的明显变化,但注意到它。保证Series / DataFrame的
convert_objects()
始终返回一个副本groupby操作将尊重数字浮点型操作的数据类型(float32 / float64);其他类型将被操作,并将尝试回到输入dtype(例如,如果一个int被传递,只要输出没有nans,那么将返回一个int)
backfill / pad / take / diff / ohlc现在支持
float32/int16/int8
操作块类型将根据需要在where / masking操作(GH2793)
系列现在将自动尝试根据传递的datetimelike对象(datetime / Timestamp)设置正确的dtype,
- timedelta64在适当的情况下返回(例如Series - Series,当两者都是datetime64时)
- 混合数据时间和构造函数中的对象(GH2751)将被正确转换
- 现在处理对数据对象的数据类型(以及对np.nan的NaT转换)
- 所有timedelta like对象将被正确地分配给
timedelta64
与混合的NaN
和/或NaT
DataFrame.clip的参数与numpy和系列剪辑不一致(GH2747)
util.testing.assert_frame_equal现在检查列和索引名称(GH2964)
当传递无效形状时,构造函数将在失败时返回更多信息的ValueError
不要在GroupBy.agg(GH3238)中禁止TypeError
当inplace = True(GH1893)时,方法返回None
HDFStore
- 添加方法
select_column
从表中选择单个列作为Series。 - 不建议使用
unique
方法,可以通过select_column(key,column).unique()
min_itemsize
参数现在将自动为传递的键创建data_columns
- 添加方法
如果可能(GH3283)向下转播,将
downcast
添加到fillna
引入选项display.height / width用于以字符显式指定终端高度/宽度。已弃用的display.line_width,现在由display.width替换。这些默认值对脚本也有效,因此除非禁用,以前非常宽的输出现在将作为“expand_repr”样式输出。
经过简短的调查,他们对每个人都错了,选项(包括display.max_rows)的各种默认值被修改。现在在w = 80,h = 60。
IPython中的HTML repr输出qtconsole再次由选项display.notebook_repr_html控制,默认情况下为打开。
Bug Fixes¶
- 当填充
pad
或backfill
(GH2778)时,修复空数据帧上的seg错误 - 处理数据类型对象的单元素数组(例如np.array(datetime(2001,1,1,0,0))),w / o dtype被传递
- 具有传递的dtype的0-dim ndarray被正确地处理(例如np.array(0.,dtype ='float32'))
- 修复系列中的一些布尔索引不一致.__ getitem __ / __ setitem__(GH2776)
- 使用溢出
int64
的整数和一些混合类型列表(GH2845)修复DataFrame和Series构造函数的问题 HDFStore
- Bug在applymap中显示,其中一些对象类型列已转换(GH2909)在convert_objects中具有不正确的默认值
- TimeDeltas
- 具有时间戳的rhs系列操作系统抛出异常(GH2898)在lhs和rhs上添加了具有datetimes,timedeltas,Timestamps和datelike系列的系列操作
- 修复了py3和numpy 1.7.0上的细微timedelta64推理问题(GH3094)
- 修正了timedelta的一些格式化问题
- 支持对timedelta64的空检查,用NaT表示(和格式化)
- 支持具有np.nan值的setitem,转换为NaT
- 支持数据帧中的最小/最大操作(abs不工作,在非支持的操作上也不会出错)
- 支持系列中的idxmin / idxmax / abs / max / min(GH2989,GH2982)
- 在需要转换为
float
(GH2746)的integer
系列上就地屏蔽 datetime64[ns]
的序列中的错误NaT
(GH2967)datetime64[ns]
系列(GH3002)的值的计数错误- 在索引中固定打印
NaT
- 在
NaT
(GH2982)的datetime64[ns]
系列的idxmin / idxmax中的错误 - 在
icol, 采取
中阴性指示的错误产生不正确的返回值(参见GH2922,GH2892 ),还检查超出界限索引(GH3029) - 当列创建失败时,DataFrame列插入时出现错误,现有框架处于不可恢复状态(GH3010)
- 在DataFrame更新中出现错误,combine_first其中未指定的值可能导致dtype更改(GH3016,GH3041)
- 在groupby中的第一个/最后一个在dtypes可以更改(GH3041,GH2763)
- 具有
nan
的索引的格式不一致或错误(将从其他值填充),(GH2850) - 解开没有nans的帧将总是导致dtype upcasting(GH2929)
- 修复标量datetime.datetime解析read_csv中的错误(GH3071)
- 固定缓慢打印大数据帧,由于低效的dtype报告(GH2807)
- 修复了groupby中使用函数作为grouper(GH3035)时的segfault
- 修复无限数据结构的漂亮打印(关闭GH2978)
- 修复带有时区的时序图(关闭GH2877)时的异常
- str.contains ignored na argument(GH2806)
- 使用不匹配长度的分类分组器(GH3011)分组时,替换segfault的警告
- 修复SparseSeries.density中的异常(GH2083)
- 修正上限取样错误,关闭=“左”,每天更新为每日数据(GH3020)
- 在scatter_matrix图(GH3063)上修正缺少的勾号条
- 当d是date()而不是datetime()(GH2993)时,在Timestamp(d,tz = foo)
- series.plot(kind ='bar')现在尊重pylab颜色方案(GH3115)
- 修正重塑形式的错误,如果没有传递正确的输入,现在引发TypeError(GH2719)
- 修正了一个错误,如果OrderedDict传入(GH3282)
- 修复RESO_US上的NameError问题(GH2787)
- 允许在无序时间库中选择与有序时间库(GH2437)类似。
- 修正在使用
axes=1
和级别参数(GH2903)调用时执行.xs
- Timestamp现在支持类似于数据时间的类方法(GH3042)
- 修复了使用布尔键索引序列并在rhs(GH2745)或rhs(GH3235)上列出1列表的问题
- 修复了groupby中的bug,当内核生成了具有不等于len(GH1738)的数组列表时
- 固定处理中心= True的rolling_corr,可能产生corr> 1(GH3155)
- 修复了索引可以作为“index / column”以及0/1作为轴参数传递的问题
- PeriodIndex.tolist现在框到期间(GH3178)
- PeriodIndex.get_loc KeyError现在报告周期而不是序数(GH3179)
- df.to_records错误处理MultiIndex(GH3189)
- 修复系列.__ getitem__ segfault当索引小于-length(GH3168)
- 修正使用Timestamp作为日期解析器(GH2932)时的错误
- 修正错误,建立日期范围从时间戳与时区,并通过相同的时区(GH2926)
- 将比较运算符添加到Period对象(GH2781)
- 修复在将两个Series连接到DataFrame时,如果它们具有相同的名称(GH2797)时的错误
- 在绘制没有颜色参数的连续时间序列(GH2816)时修复自动颜色循环
- 在PeriodIndex(GH2891)的酸洗中修复错误
- 当setitem与索引器(GH3216)时,在混合DataFrame中需要时,上传/拆分块
- 在带有dupe cols的数据帧上调用df.applymap现在引发一个ValueError(GH2786)
- 使用无效的返回索引应用提高正确的异常(GH2808)
- 修正了绘制对数比例条形图(GH3247)的错误
- df.plot()grid on / off现在遵循mpl默认样式,就像series.plot()。(GH3233)
- 修正了plotting.andrews_curves()(GH3278)图例中的错误
- 如果我们只生成一个奇异序列并且有一个简单的索引(GH2893),则生成一个关于apply的序列
- 当整数超出浮点间距(GH3258)时修复Python ASCII文件解析
- 固定漂亮的套装(GH3294)
- 面板()和Panel.from_dict()现在尊重排序时给予OrderedDict(GH3303)
- DataFrame,其中数据类型未正确选择(GH3311)
- 确保索引强制工作,即使在Int64Index
- 修复传递MultiIndex(GH3308)时的set_index segfault
- 确保在py2中创建的pickle可以在py3中读取
- 在MultiIndex摘要repr中插入省略号(GH3348)
- Groupby将处理输入组列之间的变异(并回退到非快速应用)(GH3380)
- 在使用MPL GTK后端(GH3360)时消除FreeBSD上的unicode错误
- Period.strftime应始终返回Unicode字符串(GH3363)
- 尊重已通过read_ * chunksize在get_chunk函数(GH3406)
pandas 0.10.1¶
发布日期: 2013-01-22
API Changes¶
- Restored inplace = True行为返回自身(同一对象),使用弃用警告,直到0.11(GH1893)
HDFStore
- 重构HFDStore来处理非表存储作为对象,将允许未来的增强
- 从
put
删除关键字compression
(由关键字complib
替换为跨库一致) - 警告PerformanceWarning如果您尝试存储将由PyTables酸洗的类型
Improvements to existing features¶
HDFStore
- 启用存储多索引数据帧(关闭GH1277)
- 支持数据列索引和选择,通过附加的
data_columns
关键字 - 支持写分块以减少内存占用,通过
chunksize
关键字附加 - 支持通过
index
关键字自动索引到append - 支持
expectedrows
关键字在append中通知PyTables
关于预期的表大小 - 在选择中支持
start
和stop
关键字以限制行选择空间 - 添加了
get_store
上下文管理器以使用pandas自动导入 - 在选择中通过
columns
关键字添加列过滤 - 添加方法append_to_multiple / select_as_multiple / select_as_coordinates以进行多表附加/选择
- 添加了对datetime64的支持
- 添加方法
unique
在可索引或数据列中选择唯一值 - 添加方法
copy
以复制现有存储(并可能升级) - 显示打印存储时非表存储的磁盘上数据的形状
- 添加读取PyTables风味表的能力(允许与其他HDF5系统的兼容性)
- 将
logx
选项添加到DataFrame / Series.plot(GH2327,GH2565) - 支持从文件状对象读取gzipped数据
pivot_table
aggfunc可以是GroupBy.aggregate中使用的任何东西(GH2643)- 在设置的基数可能溢出64位整数(GH2690)的情况下实施DataFrame合并
- 如果指定整数dtype并且具有NA值,则在C文件解析器中提升异常。(GH2631)
- 尝试在read_csv中解析ISO8601格式日期(当parse_dates = True时),以便在这种情况下提高性能(GH2698)
- 将方法
neg
和inv
添加到Series - 在
ExcelFile
中实施kind
选项以指示其是XLS还是XLSX文件(GH2613) - 在解析iso8601日期时间字符串产生高达20倍速加速时,在pd.read_csv中记录了快速路径。(GH5993)
Bug Fixes¶
- 修正read_csv / read_table多线程问题(GH2608)
HDFStore
- 使用UTF8编码列修复DataFrame.info错误。(GH2576)
- 修复DatetimeIndex处理FixedOffset tz(GH2604)
- 更广泛的检测IPython会话中的DataFrame控制台格式(GH2585)
- 在单元测试(GH2564)中修复平台问题与
file:///
- 修复包含NA值(GH2616)的按层次级别进行分组时的错误和可能的段错误
- 确保MultiIndex元组可以用NAs(GH2616)构造
- 解锁多层次的MultiIndex(GH2616)时解决int64溢出问题
- 默认情况下,从DataFrame.quantile中排除非数字数据(GH2625)
- 修复Cython C int64装箱问题,导致read_csv返回不正确的结果(GH2599)
- 修复针对布尔数据(GH2692)的groupby求和性能问题
- 不要使用to_datetime(GH2699)包含datetime64值的系列
- 修复DataFrame.from_records在传递列,索引列,但是空记录列表(GH2633)时的情况
- 修复C解析器 - 令牌器错误与拖尾字段。(GH2668)
- 不要从GroupBy.max / min(GH2700)中排除非数字数据
- 调用DatetimeIndex.drop(GH2621)时不要丢失时区
- 修复具有布尔键和非标量作为值的系列的setitem(GH2686)
- Series.apply / map中的框datetime64值(GH2627,GH2689)
- 连接帧时的上变频datetime + datetime64值(GH2624)
- 当一个DataFrame有重复的列(GH2649)时,在合并操作中提高更有用的错误消息
- 修复部分日期解析问题只有当代码在EOM(GH2618)运行时才会发生
- 在具有高基数MultiIndex对象(GH2684)的sortlevel中使用计数排序时防止MemoryError
- 当所有值都归入单个bin(GH2070)时,Fix Period重新采样错误
- 修复在read_csv中与usecols参数的错误交互,当有隐式第一索引列(GH2654)时
- 修正
Index.summary()
中的错误,其中字符串格式的方法被错误地调用。(GH3869)
pandas 0.10.0¶
发布日期: 2012-12-17
New Features¶
- 全新的高性能分隔文件解析引擎,用C和Cython编写。在许多标准用例中具有50%或更好的性能,具有少量的内存使用。(GH407,GH821)
- 许多新的文件解析器(read_csv,read_table)特性:
- 支持即时gzip或bz2解压缩(压缩选项)
- 能够返回numpy.recarray而不是DataFrame(as_recarray = True)
- dtype选项:显式列dtypes
- usecols选项:指定要从文件读取的列的列表。适合读取包含许多不相关列的非常宽的文件(GH1216 GH926,GH2465)
- 通过编码选项增强的Unicode解码支持
- skipinitialspace方言选项
- 可以指定要识别为True(true_values)或False(false_values)的字符串
- 高性能delim_whitespace选项,用于以空格分隔的文件;是's +'正则表达式定界符的首选替代项
- 跳过过去可能导致错误的“错误”行(错误的字段数)的选项(error_bad_lines和warn_bad_lines选项)
- 基本上提高了解析带有成千条标记的整数和带注释的行的性能
- 易于使用欧洲(和其他)十进制格式(十进制选项)(GH584,GH2466)
- 自定义行终止符(例如lineterminator ='〜')(GH2457)
- 处理CSV文件中没有尾随逗号(GH2333)
- 能够在date_converters(GH2209)中处理小数秒钟
- read_csv allow scalar arg to na_values(GH1944)
- read_ *函数中的显式列dtype规范(GH1858)
- 更便于CSV方言规范(GH1743)
- 处理特殊字符(GH1204)时提高解析器性能
- Google Analytics(分析)API与easy oauth2工作流程整合(GH2283)
- 将错误处理添加到Series.str.encode / decode(GH2276)
- 将
where
和mask
添加到Series(GH2337) - 通过Series / DataFrame.hist中的by关键字分组的直方图(GH2186)
- 在Series和DataFrame(GH2002)中支持
corr
和cov
中的可选的min_periods
- 将
duplicated
和drop_duplicates
添加到系列(GH1923) - 为
HDFStore 表格
添加文档格式 - 'density'property in SparseSeries(GH2384)
- 为正向和回填时间序列数据添加
ffill
和bfill
便利函数(GH2284) - 新选项配置系统和函数set_option,get_option,describe_option和reset_option。不再使用set_printoptions和reset_printoptions(GH2393)。您还可以通过
pandas.options.X
访问作为属性的选项 - 通过新的expand_frame_repr和line_width配置选项,您可以在控制台中更轻松地查看宽数据帧。现在默认情况下启用(GH2436)
- Scikits.timeseries类移动窗口函数通过
rolling_window
(GH1270)
Experimental Features¶
- 添加对Panel4D的支持,这是一个名为4维的结构
- 添加对ndpanel工厂函数的支持,以创建自定义的特定于域的N维容器
API Changes¶
- 对于每日和低频,
resample
的默认分级/标记行为已更改为closed ='left',label ='left'。这对用户来说是一个很大的混乱。请参阅“新功能”页面了解更多。(GH2410) - 使用
inplace
选项的方法现在返回None,而不是调用(修改)对象(GH1893) - 特殊情况DataFrame - 执行逐列广播的TimeSeries已被弃用。用户应明确地df.sub(ts,axis = 0)。这是一个遗留的黑客,可以导致微妙的错误。
- inf / -inf不再被isnull / notnull视为NA。要清楚,这是来自早期大熊猫的遗产。。此行为可使用新选项
mode.use_inf_as_null
(GH2050,GH1919)全局重新启用 pandas.merge
现在默认为sort=False
。对于许多使用情况,排序连接键不是必需的,并且默认情况下这是浪费- 明确指定
header=0
以替换read_ *函数中文件中的现有列名。 - 无标题解析文件的默认列名(由read_csv等产生)现在是整数0,1,....添加了一个新的参数前缀;以获取v0.9.x行为指定
prefix='X'
(GH2034)。进行此API更改是为了使默认列名称与DataFrame构造函数的默认列名称一致,当没有指定时。 - 使用布尔框架的DataFrame选择现在保留输入形状
- 如果函数传递给Series.apply产生一个Series,结果将是一个DataFrame(GH2316)
- 像YES / NO / yes / no这样的值在文件解析器中不会被默认为布尔值。这可以使用新的
true_values
和false_values
选项(GH2360)进行自定义 - obj.fillna()不再有效;使method ='pad'不再是默认选项,以更明确地说明要执行什么样的填充。添加上述ffill / bfill便利功能(GH2284)
- HDFStore.keys()现在返回每个键的绝对路径名
- to_string()现在总是返回一个unicode字符串。(GH2224)
- 文件解析器不处理由传递的转换器函数产生的NA标识值
Improvements to existing features¶
- 将
nrows
选项添加到DataFrame.from_records中用于迭代器(GH1794) - 在观察到的关键字的数量远小于可能发生的总数(GH2278)的情况下,重新编写Unstack / reshape算法重写以避免高内存使用。还可以在大多数情况下提高性能。
- 支持DataFrame.from_records(GH2179)中的重复列
- 将
normalize
选项添加到Series / DataFrame.asfreq(GH2137) - 从空和标量值构造的SparseSeries和SparseDataFrame现在不再不必要地创建密集的数组(GH2322)
HDFStore
现在支持分层键(GH2397)- 支持
HDFStore 表格
(GH1996)的多种查询选择格式 - 支持
del store ['df']
语法删除HDFStores - 为
HDFStore 表添加多类型支持
min_itemsize
参数可以在HDFStore 表
- 在
HDFStore 表中建立索引支持
(GH698) - 将line_terminator选项添加到DataFrame.to_csv(GH2383)
- 添加str(x)/ unicode(x)/ bytes(x)实现到主要的熊猫数据结构,这应该做正确的事情在py2.x和py3.x。(GH2224)
- 通过低级别操纵DataFrames(GH535)中的内部NumPy数组来减少groupby.apply开销
- 在
melt
中实施value_vars
并将melt
添加到pandas命名空间(GH2412) - 为面板添加了布尔比较运算符
- 启用
Series.str.strip/lstrip/rstrip
方法接受参数(GH2411) - DataFrame ctor现在在给定OrderedDict(GH2455)时遵守列排序
- 将DatetimeIndex分配给Series会将类更改为TimeSeries(GH2139)
- 提高非整数数据上的.value_counts方法的性能(GH2480)
get_level_values
MultiIndex返回索引而不是ndarray方法(GH2449)convert_to_r_dataframe
转换datetime值(GH2351)- 允许
DataFrame.to_csv
以不同的方式表示inf和nan(GH2026) - 将
min_i
参数添加到nancorr
以指定最小所需观察值(GH2002) - 在DataFrame(GH1873)上将
inplace
选项添加到sortlevel
/sort
- 启用DataFrame以接受标量构造函数值,如Series(GH1856)
- DataFrame.from_records现在接受可选的
size
参数(GH1794) - 包括光圈数据集(GH1709)
- 没有datetime64 datetime.datetime的列转换与tzinfo(GH1581)
- DataFrame中的微优化用于跟踪内部合并的状态(GH217)
- DataFrame.to_csv中的格式参数(GH1525)
- 对于每日和更高频率(GH2306),
DatetimeIndex
的部分字符串切片 - 在DataFrame(GH1000)中的
to_html
和to_string
中实施col_space
- 覆盖
Series.tolist
和框datetime64类型(GH2447) - 通过压缩索引(GH2278)优化
unstack
- 如果打开窗口很小(GH2275),修复IPython qtconsole中的HTML repr
- 在控制台输出中转义更多特殊字符(GH2492)
- df.select现在对crit(x)(GH2487)的结果调用bool
Bug Fixes¶
- 修复DataFrame.iteritems中的主要性能回归(GH2273)
- 修复了当负数周期传递到Series / DataFrame.diff(GH2266)时的错误
- 在控制台输出中转义选项卡以避免对齐问题(GH2038)
- 在从混合型数据框架(GH2272)中检索横截面时,正确地装入datetime64值
- 修复连接错误,导致GH2057,GH2257
- 在索引控制台格式化(GH2319)中修正回归
- 将PeriodIndex分配给框架列(GH2243,GH2281)时的箱期数据
- 在使用inplace = True(GH2277)的系列上调用reset_index时抛出异常
- 启用在DataFrame中设置多个列的分层列(GH2295)
- 在DataFrame构造函数中使用dtype = object(GH2291)
- 修复datetimeIndex.join错误与tz感知索引和如何='外'(GH2317)
- pop(...)和使用带有重复列的DataFrame的工作(GH2349)
- 在日期解析中将空字符串视为NA(而不是让dateutil做一些奇怪的事情)(GH2263)
- 阻止uint64 - > int64溢出(GH2355)
- 启用MultiIndex和常规索引(GH2024)之间的连接
- 在将不重叠的DatetimeIndex对象(GH2367)联合时修复时区元数据问题
- 在解析器中提升/处理int64溢出(GH2247)
- 删除
HDFStore 表`
中的连续行比以前快得多 - 如果不是首先通过
put
创建表,则附加在HDFStore上将失败 - 在DataFrame.to_html(GH2328)中使用col_space参数作为最小列宽
- 修复tz感知DatetimeIndex.to_period(GH2232)
- 使用MultiIndex(GH2314)修复DataFrame行索引大小写
- 修正索引中的Timestamp对象(GH2294)的to_excel导出问题
- 修复了将标量和数组分配给分层列块(GH1803)
- 修复了系列tidy_repr(GH2225)的UnicodeDecodeError
- 修复了在索引中出现重复键(GH2347,GH2380)
- 修正了问题re:哈希随机,默认开始w / py3.3(GH2331)
- 修正载入腌制的资料框(GH2431)后缺少属性的问题
- 在dateutil 2.1中使用tzoffset时区修正时间戳格式(GH2443)
- 修复GroupBy.apply问题,当使用BinGrouper做ts binning(GH2300)
- 修复在调用DataFrame.apply时datetime.datetime列转换为datetime64导致的问题。(GH2374)
- 在非唯一索引框架(GH2441)上调用to_panel时抛出异常
- 改进了对IPython zmq前端(GH2458)的控制台编码检测
- 保留两个时间序列(GH2260)时添加时区
- 在时区感知索引上调用reset_index而不是创建无tz的datetime64列(GH2262)时,时间戳记
- 启用在DataFrame.filter中搜索非字符串列(like = ...)(GH2467)
- 修复了在转换为DatetimeIndex(GH2252)时丢失纳秒精度的问题
- 在Datetime.normalize(GH2338)中处理时区
- 修复测试用例,其中带有字节序的dtype规范导致大端机器上的故障(GH2318)
- 修正绘图错误,其中上采样导致数据在时间上偏移(GH2448)
- 修正带有BOM和skiprows(GH2298)的UTF-16的
read_csv
故障 - 具有名称arg的read_csv不隐含地设置header = None(GH2459)
- 无法识别的压缩模式会在read_csv(GH2474)中导致segfault
- 在read_csv中,header = 0,并且传递的名称应该丢弃第一行(GH2269)
- 在read_table(GH2071)中正确路由到stdout / stderr
- 修正在使用tzoffset(GH2471)的时间戳记调用Timestamp.to_datetime时修复异常
- 在groupby.first()(GH2133)中修复了无意中将datetime64转换为long
- 空数据帧的联合现在返回空的连接索引(GH2307)
- DataFrame.sort_index引发更有用的异常,如果按列重复排序(GH2488)
- DataFrame.to_string格式化也可以是列表(GH2520)
- DataFrame.combine_first将始终导致索引和列的并集,即使一个DataFrame为长度零(GH2525)
- 修复几个DataFrame.icol / irow与重复索引问题(GH2228,GH2259)
- 当使用带轴= 1(GH2489)的concat时,对列名称使用系列名称
- 如果开始,结束,周期都传递到date_range(GH2538),则抛出异常
- 修复面板重新取样问题(GH2537)
pandas 0.9.1¶
发布日期: 2012-11-14
New Features¶
API Changes¶
Improvements to existing features¶
- 月(例如WOM-2FRI)规则的时间规则推论(GH2140)
- 提高大量偏移周期的日期时间+工作日偏移的性能
- 改进具有分层列的DataFrame对象的HTML显示
- 通过其列名称(GH1936)启用Excel列的引用
- DataFrame.dot可以接受ndarrays(GH2042)
- 在Panel.shift(GH2164)中支持排除期
- Make .drop(...)使用非唯一索引(GH2101)
- 提高Series / DataFrame.diff的性能(re:GH2087)
- 在DataFrame(GH2110)中支持一元〜(__invert__)
- 关闭熊猫式定位器和格式化程序(GH2205)
- DataFrame [DataFrame]使用DataFrame.where来计算掩码帧(GH2230)
Bug Fixes¶
- 修复一些重复列的DataFrame构造函数问题(GH2079)
- 修复条形图颜色周期问题(GH2082)
- 固定堆叠条形图的偏心网格(GH2157)
- 修正绘图错误,如果推断的频率偏移N> 1(GH2126)
- 使用固定增量(GH2078)实施日期偏移比较
- 在read_ *解析器函数中正确处理inf / -inf(GH2041)
- 修复matplotlib unicode交互bug
- 使WLS r平方匹配statsmodel 0.5.0固定值
- 修复零修整DataFrame格式化错误
- 从Series.min / max(GH2083)正确计算/ box datetime64最小/最大值
- 使用未表示的组修复拆散边缘情况(GH2100)
- 修复使用管道模式“|”(GH2119)时的Series.str失败
- 修复系列中的dict条目的漂亮打印,DataFrame(GH2144)
- 在DataFrame ctor(GH2095)中将其他datetime64值转换为纳秒
- Alias Timestamp.astimezone to tz_convert,so will yield Timestamp(GH2060)
- 修复timedelta64格式的系列(GH2165,GH2146)
- Handle在dict中传递给Panel构造函数(GH2075)的无格式值
- Box datetime64值作为Series / DataFrame.iget(GH2148)中的Timestamp对象
- 修复DatetimeIndex.insert(GH2155)中的时间戳记索引错误
- 在DataFrame.to_records(GH2161)中使用索引名称(如果有)
- 不要在Panel.to_frame / DataFrame.to_panel(GH2163)中丢失索引名称
- 解决长度0布尔索引NumPy错误(GH2096)
- 修复DataFrame.xs中的部分整数索引错误(GH2107)
- 修复各种cut / qcut字符串格式化错误(GH1978,GH1979)
- 在xs视图不可能使用MultiIndex的DataFrame(GH2117)时抛出异常
- 修复groupby(...)。first()问题与datetime64(GH2133)
- 在一些rolling_ *函数(GH2114,GH2527)中更好的浮点错误鲁棒性
- 修复系列中间的正常NA处理(GH2128)
- 使用整数数据修正数值精度问题(GH2087)
- 修正MultiIndex中的错误.__ getitem__带有NA值(GH2008)
- 修复DataFrame.from_records dict-arg传递列时的错误(GH2179)
- 修复系列和DataFrame.diff的整型dtypes(GH2087,GH2174)
- 修正在使用空索引(GH2129)的DatetimeIndex交集时的错误
- 调用DataFrame.align(GH2127)时传递时区信息
- 在datetime64值上加入时正确排序(GH2196)
- 修复索引bug,其中False / True被强制为0/1(GH2199)
- 许多unicode格式修正(GH2201)
- 修复分配不当的MultiIndex转化问题。 DataFrame.index(GH2200)
- 修复混合类型DataFrame到带有双列的ndarray的转换(GH2236)
- 修复重复的栏问题(GH2218,GH2219)
- 修复SparseSeries .__ pow__问题与NA输入(GH2220)
- 修复整数序列失败的icol(GH2228)
- 固定重采样tz感知时间序列问题(GH2245)
- SparseDataFrame.icol未返回SparseSeries(GH2227,GH2229)
- 启用ExcelWriter处理PeriodIndex(GH2240)
- 修复从空系列构造DataFrame的问题,名称为(GH2234)
- 仅在交互式会话中使用控制台宽度检测(GH1610)
- 使用mpl 1.2.0修复parallel_coordinates图例错误(GH2237)
- 使tz_localize在空系列的情况下工作(GH2248)
pandas 0.9.0¶
发布日期: 10/7/2012
New Features¶
Improvements to existing features¶
- 在合并操作中正确处理NA值(GH1990)
- 在一些Series.str方法(GH1659)中为
re.compile
添加flags
- 在read_ *函数(GH1693)中解析UTC日期字符串
- 将发生器输入处理为系列(GH1679)
- 将na_action ='ignore'添加到Series.map中以静默地传播NAs(GH1661)
- 向Series.apply(GH1829)添加args / kwds选项
- 向Series / DataFrame.reset_index(GH1797)添加inplace选项
- 将
level
参数添加到Series.reset_index
- 为DataFrame.to_csv添加引用选项(GH1902)
- 在DataFrame输出中使用...指示长列值截断(GH1854)
- DataFrame.dot不会进行数据对齐,也可以使用Series(GH1915)
- 在一些向量化字符串方法(GH1689)中添加
na
选项 - 如果DataFrame.to_csv中的index_label = False,请不要在文本输出中打印字段/逗号。更容易导入R(GH1583)
- 可以将元组/轴列表传递给DataFrame.dropna,以简化重复调用(删除列和行)(GH924)
- 针对分层索引的行改进DataFrame.to_html输出(不重复级别)(GH1929)
- TimeSeries.between_time现在可以选择跨午夜的时间(GH1871)
- 在ExcelFile.parse(GH1843)中启用skip_footer参数
API Changes¶
- 将read_ *函数中的默认标题名更改为更多Pythonic X0,X1等。而不是X.1,X.2。(GH2000)
- 从PeriodIndex中删除已弃用的
day_of_year
API,请使用dayofyear
(GH1723) - 不要在导入时修改NumPy抑制打印
- DataFrames的内部HDF5数据安排已被移调。传统文件仍然可以由HDFStore(GH1834,GH1824)读取
- 旧版本删除:pandas.stats.misc.quantileTS
- 对于期间期间使用ISO8601格式:每月,每日和向下(GH1776)
- 空DataFrame列现在创建为对象dtype。这将防止出现在代码中的TypeErrors类,其中列的dtype将取决于数据的存在(例如,具有结果的SQL查询)(GH1783)
- 使用ix设置DataFrame / Panel的部分现在对齐输入Series / DataFrame(GH1630)
- GroupBy中的第一和最后方法不再删除非数字列(GH1809)
- 解决了在文本解析器中指定自定义NA值时出现的不一致。类型dict的na_values不再覆盖默认NA,除非keep_default_na明确设置为false(GH1657)
- 在文本解析器中将skipfooter参数用作skip_footer的别名
Bug Fixes¶
- 在混合类型DataFrame中逐列执行算术,以避免类型转换问题。导致下游DataFrame.diff错误(GH1896)
- 在没有自定义频谱通过时修复matplotlib自动颜色分配。还要尊重传递的颜色关键字参数(GH1711)
- 使用closed ='left'(GH1726)修复重采样逻辑错误
- 修复关键DatetimeIndex.union错误(GH1730,GH1719,GH1745,GH1702,GH1753 t4 >)
- 使用未锚定的偏移修正关键DatetimeIndex.intersection错误(GH1708)
- 修复MM-YYYY时间系列索引大小写(GH1672)
- 修复在GroupBy结果(GH1701)中分类组键未传递到索引中的情况
- 处理系列中的省略号.__ getitem __ / __ setitem__(GH1721)
- 修复了处理NumPy 1.6和1.7中其他单元的datetime64标量的一些错误(GH1717)
- 修复MultiIndex.format(GH1746)中的性能问题
- 修复GroupBy错误与DatetimeIndex asof / map方法(GH1677)
- 在pandas.rpy(GH1615)中使用NAs处理因子
- 修复statsmodels import in pandas.stats.var(GH1734)
- 使用非唯一列(GH1700)修复DataFrame repr / info摘要
- 修正非唯一索引的系列.iget_value(GH1694)
- 在将DatetimeIndex传递为DataFrame列(GH1682)时,不要丢失tzinfo
- 使用从数组中第一个日期以后没有任何DST转换的时区(GH1673)修复tz转换
- 使用UTC->在未排序数组上的本地转换修复字段访问(GH1756)
- 修复类似数组(列表)输入(GH1755)的isnull处理
- 修复系列处理中的回归构造函数(GH1671)
- 修复Int64Index与DatetimeIndex(GH1681)的比较
- 修复在数组开始时在新的rolling_max / min中处理min_periods(GH1695)
- 在由SeriesBinGrouper(GH1648,GH1688)引起的某些情况下修正错误与如何='中值'和通用NumPy重新采样
- 按级别分组时,排除未查看级别(GH1697)
- 在按不同偏移量移动时(GH1683),不要在DatetimeIndex中丢失tzinfo
- Hack支持在HDFStore(GH1707)中使用零长度轴存储数据
- 修复DatetimeIndex tz感知范围生成问题(GH1674)
- Fix method ='time'interpolation with intraday data(GH1698)
- 不要将all-NA DataFrame列都绘制为零(GH1696)
- 使用选项(GH1716)修正scatter_plot中的错误
- 修复infer_freq中的许多非唯一标记(GH1686)的性能问题
- 修复PeriodIndex作为创建MultiIndex(GH1705)的参数的处理
- 修复:serial / DataFrame中的unicode MultiIndex级别名称repr(GH1736)
- 处理to_datetime实例方法中的PeriodIndex(GH1703)
- 在DatetimeIndex基础架构中支持StaticTzInfo(GH1692)
- 允许具有长度为0的其他类型索引(GH1727)的MultiIndex setops
- 修复DataFrame.to_records(GH1720)中DatetimeIndex的处理
- 修复了在bool(...)失败(GH1749)的isnull中处理常规对象
- 使用MultiIndex歧义修正.ix索引(GH1678)
- 修复.ix设置非唯一MultiIndex(GH1750)的逻辑错误
- 基本索引现在适用于具有> 1000000个元素的多索引,从早期版本的熊猫回归(GH1757)
- 在快速DataFrame.corr / cov代码路径(GH1761)中处理非float64类型
- 修复DatetimeIndex.isin以正常运行(GH1763)
- 将具有tz感知datetime.datetime的数组的数据转换为带有正确时区的日期时间索引(GH1777)
- 修正DST问题,包括生成内容日期范围(GH1778)
- 修复问题调用排序的结果Series.unique(GH1807)
- 修正在rolling_std(GH1840)中导致负数平方根的数值问题
- 让Series.str.split不接受参数(如str.split)(GH1859)
- 允许用户在Python 2系统上安装dateutil 2.1(GH1851)
- 在pandas / __ init__.py(GH1845)中不太积极地捕获ImportError
- 修复从GitHub(GH1805)安装时的pip源安装错误
- 在scroll_apply(GH1850)中修复窗口大小>数组大小时出错
- 通过SSH从GitHub修复pip源安装问题
- 当列为元组(GH1837)时修复OLS.summary
- 修复在将_OO传递给解释器(GH1792 GH1741 GH1774)时在__doc__修补中的错误
- 修复IPython笔记本中的unicode控制台编码问题(GH1782,GH1768)
- 修复Series.name(GH1782)的Unicode格式问题
- 使用datetime64列(GH1833)修复DataFrame.duplicated中的错误
- 修复Panel内部的错误,导致错误,当做fillna后截断不改变面板的大小(GH1823)
- 防止由于HDFStore表格格式(GH1848)不支持MultiIndex而导致的segfault
- 修复Panel .__ setitem__中的UnboundLocalError并添加更好的错误(GH1826)
- 修正与字符串条目列表的to_csv问题。Isnull现在也在字符串列表中工作(GH1791)
- 修复时间戳比较与纳秒范围外的日期时间值(1677-2262)
- 回到之前的行为normalize_date与datetime.date对象(返回日期时间)
- 修复np.nansum和Series.any / all之间的破坏的交互
- 修正多列日期解析器的错误(GH1866)
- DatetimeIndex.union(Int64Index)被打破
- 使绘图x vs y接口与整数索引(GH1842)一致
- set_index inplace已修改数据,即使唯一检查失败(GH1831)
- 仅在季度频率推理中使用Q-OCT / NOV / DEC(GH1789)
- 解压缩时dvert = dtype DataFrame(GH1820)
- 修复float64 / float32合并bug(GH1849)
- 修正非每日频率(GH1857)的Period.start_time
- 修复在index_col中使用的转换器在read_csv(GH1835)中失败
- 实现PeriodIndex.append,使pandas.concat正常工作(GH1815)
- 避免Cython超出界限访问引起segfault有时在pad_2d,backfill_2d
- 修正重采样错误,其中日内时间和锚定目标时间(如AS-DEC)(GH1772)
- 使用混合整数索引修复.ix索引错误(GH1799)
- 在Series.plot中传递color关键字参数(GH1890)
- 当窗口大于输入数组的大小时,修正rolling_min / max。检查其他格式错误的输入(GH1899,GH1897)
- 滚动方差/标准偏差,在窗口中只有一个观察值(GH1884)
- 在to_excel(GH1828)中修复unicode工作表名称失败
- 覆盖DatetimeIndex.min / max以返回时间戳对象(GH1895)
- 修正长度截断列(GH1906)中的列名称格式问题
- 修复损坏的处理复制索引元数据到由NumPy基础设施内的view(...)调用创建的新实例
- 在DateOffset.rollback / rollforward中再次支持datetime.date
- 如果设置为传递给Series构造函数(GH1913),则抛出异常
- 在追加HDFStore表时错误索引类型(GH1881)时添加TypeError
- 不要在EW函数(例如ewma)(GH1900)中引发空输入的异常
- 使asof与PeriodIndex(GH1883)正确工作
- 修复doc构建中的extlinks
- 调用shift(GH1814)时,使用NaN填充布尔数据框架
- 修复setuptools错误导致pip不有Cythonize .pyx文件有时
- 修复.ix中的负整数索引回归从0.7.x(GH1888)
- 修复错误,同时检索时区和utc偏移从datetime.tzinfo没有.zone和._utcoffset属性(GH1922)
- 修复小的非零FP数字(GH1911)的DataFrame格式
- 通过上传日期 - > datetime(GH1395)的各种修复
- 在将多个具有相同名称的函数(例如lambdas)传递给GroupBy.aggregate时,提高更好的异常
- 在非唯一索引(GH1878)上修复DataFrame.apply(轴= 1)
- 正确处理pandas.unique中的索引子类(GH1759)
- 在DataFrame.from_records(GH1744)中设置索引名称
- 修复时间序列索引错误与重复,哈希表大小截止(GH1821)
- 在部分索引分层索引的DataFrame(GH1796)时,除了DataFrame.xs中的元组之外,还处理列表键
- 在DataFrame中支持多个列选择.__ getitem__具有重复的列(GH1943)
- 修复时区本地化错误,导致长时间没有UTC转换的时区(GH1946)中的字段(例如小时)不正确
- 修复在解析和使用固定偏移时区(GH1922,GH1928)时出现的错误
- 在处理由dateutil(GH1693)生成的UTC datetime对象时修复文本解析器错误
- 当“B”是推断的频率但指数实际上包含周末(GH1668,GH1669)时修正绘图错误
- 修复绘图样式错误(GH1666,GH1665,GH1658)
- 修正带有unicode的索引/列的绘图错误(GH1685)
- 修复DataFrame构造函数错误在dict(GH1680)中使用datetime64 dtype的系列
- 使用时区感知datetime.datetime(GH1676)生成DatetimeIndex的固定回归
- 在打印具有重复列的连续DataFrames(GH1675)时修复DataFrame错误
- 修正在绘制具有多个日内频率的时间系列(GH1732)时的错误
- 修复DataFrame.duplicated中的错误,以启用除列表类型之外的其他类型作为输入参数(GH1773)
- 修复在传递lambdas列表作为如何参数(GH1808)时的重新取样错误
- Repr修复所有NAs(GH1971)的MultiIndex级别
- 修复PeriodIndex切片错误,当切片开始/结束超出边界(GH1977)
- 修复read_table错误时解析unicode(GH1975)
- 修复当处理非唯一MultiIndex作为列(GH1970)时的BlockManager.iget错误
- 修复reset_index错误,如果指定drop和level(GH1957)
- 解决不安全的NumPy对象 - >使用Cython函数(GH1987)的int转换
- 在DataFrame.to_csv(GH1993)中修正datetime64格式错误
- 将默认开始日期(pandas.io.data)设置为文档所指定的1/1/2000(GH2011)
pandas 0.8.1¶
发布日期: 2012年7月22日
New Features¶
Improvements to existing features¶
- 使用移动最小/最大算法从Bottleneck在rolling_min / rolling_max> 100倍加速。(GH1504,GH50)
- 添加Cython组中位数方法,用于> 15倍速加速(GH1358)
- 彻底改善ISO8601日期时间字符串(没有时区)上的
to_datetime
性能(GH1571) - 提高大数据集上的单键组性能,加快使用分类变量的groupby
- 添加使用
set_index
附加层次索引级别并使用reset_index
(GH1569,GH1577)删除单个级别的功能 - 始终在
resample
中应用传递的函数,即使上采样(GH1596) - 避免在DataFrame构造函数中使用显式dtype(GH1572)不必要的副本
- 具有1或2个元素(GH1611)的清除程序DatetimeIndex字符串表示形式
- 将期间数组的性能提高到PeriodIndex,将这些数组转换为IndexIndex(GH1215)内的PeriodIndex
- 周期对象的更多信息字符串表示形式(GH1503)
- 从同类面板加速3轴多数据选择(GH979)
- 将
adjust
选项添加到ewma以禁用调整系数(GH1584) - 添加新的matplotlib转换器用于高频时间序列绘图(GH1599)
- 在to_datetime中处理tz感知的datetime.datetime对象; raise Exception unless utc = True given(GH1581)
Bug Fixes¶
- 修复DataFrame.to_panel(GH1582)中的NA处理
- 处理PyObject_RichCompareBool中的TypeError问题调用khash(GH1318)
- 将重新取样错误修正为小写每日频率(GH1588)
- 修复kendall / spearman DataFrame.corr错误,没有重叠(GH1595)
- 修正DataFrame.set_index(GH1592)中的错误
- 如果指定(GH1565),则不要忽略箱线图中的轴
- 修复面板.ix整数索引编制错误(GH1603)
- 修复部分索引错误(年,月,...)与PeriodIndex(GH1601)
- 修正MultiIndex控制台格式问题(GH1606)
- 具有重复项的无序索引不会为单个条目生成标量位置(GH1586)
- 使用“锚定”频率(GH1591)修复tz感知时间序列的重新采样
- 修复整数数据上的DataFrame.rank错误(GH1589)
- 通过__getitem__中的列表选择多个SparseDataFrame列(GH1585)
- 覆盖Index.tolist以与MultiIndex兼容(GH1576)
- 修复长度为1的MultiIndex的层次求和错误(GH1568)
- 解决在Series.set_value(GH1561)中的numpy.concatenate use / bug
- 确保系列/ DataFrame在重新采样之前进行排序(GH1580)
- 在索引非常大的时间系列(GH1562)时修复未处理的IndexError
- 修正DatetimeIndex交叉逻辑错误与不规则索引(GH1551)
- 修正Python 3上的单元测试错误(GH1550)
- 将.ix索引错误修复为重复的DataFrame索引(GH1201)
- 更好地处理HDFStore中不存在的对象的错误(GH1254)
- 当copy = False(GH1624)时,不要在DatetimeIndex中复制int64数组数据
- 将符合期间每季度重新取样(GH1622)
- 重新取样时不要丢失索引名称(GH1631)
- 支持python-dateutil版本2.1(GH1637)
- 修复损坏的scatter_matrix轴标签,esp。与时间序列(GH1625)
- 修复了额外的关键字没有从Series.plot传递到matplotlib的情况(GH1636)
- 修正每月第1个bday之前的日期的BusinessMonthBegin逻辑(GH1645)
- 确保在DataFrame.xs / __getitem__(GH1644)中转换字符串别名(在DatetimeIndex.get_loc中有效)
- 修复使用具有tz感知时间系列(GH1647)的字符串别名时间戳
- 修复系列.max / min和Series.describe在len-0系列(GH1650)
- Handle无法将dict中的值传递给concat(GH1649)
- 使用method ='values'和DatetimeIndex(GH1646)修复Series.interpolate
- 修复在具有0长度(GH1628)的DataFrame上的左合并中的IndexError
- 使用UTF-8编码字符(GH1620)修复DataFrame列宽度显示
- 在pandas.io.data.get_data_yahoo中处理case返回最近一个工作日的重复日期
- 避免在同一子图(GH1619)上绘制混合频率时进行下采样
- 修正read_csv读取单行时的错误(GH1553)
- 修复C代码中的错误,导致1969年12月以前的每月期间关闭(GH1570)
pandas 0.8.0¶
发布日期: 6/29/2012
New Features¶
- 新的统一DatetimeIndex类的纳秒级时间戳数据
- 新时间戳datetime.datetime子类,具有简单的时区转换,并支持纳秒
- 时间跨度,日历逻辑和期间标量对象的新PeriodIndex类
- 时间戳和周期数据的高性能重采样。所有pandas数据结构的新resample方法
- 新的频率名称加快捷字符串别名,如'15h','1h30min'
- 时间序列字符串索引速记(GH222)
- 将星期,dayofyear数组和其他时间戳数组值字段访问器函数添加到DatetimeIndex
- 添加GroupBy.prod优化聚合函数和'prod'快速时间序列转换方法(GH1018)
- 在DatetimeIndex(GH391)上实施鲁棒频率推理函数和inferred_freq属性
- Series / DataFrame中的新
tz_convert
和tz_localize
方法 - 如果时区在join / setops中不同,则将DatetimeIndexes转换为UTC(GH864)
- 为向前/向后填充向reindex,fillna等添加limit参数(GH825和其他)
- 添加对索引(日期或其他)的支持,包括重复和常识索引/选择功能
- Series / DataFrame.update方法,combine_first(GH961)的就地变体
- 将
match
函数添加到API(GH502) - 将Cython优化的first,last,min,max,prod函数添加到GroupBy(GH994,GH1043)
- 日期可拆分为多个列(GH1227,GH1186)
- 添加实验支持,通过rpy2(GH350,GH1212)将pandas DataFrame转换为R data.frame
- 可以将(名称,函数)列表传递给GroupBy.aggregate以按特定顺序(GH610)获取聚合
- 可以将具有函数或者词典列表的词典传递给GroupBy聚合,以进行更灵活的多功能聚合(GH642,GH610)
- 用于将DataFrames与有序数据合并的新的ordered_merge函数。还支持面板数据的组合并(GH813)
- 将keys()方法添加到DataFrame
- 添加灵活的替换方法,将潜在值替换为Series和DataFrame(GH929,GH1241)
- 为Series / DataFrame.plot添加'kde'绘图类型(GH1059)
- 使用GroupBy更灵活的多功能聚合
- 将pct_change函数添加到Series / DataFrame
- 添加选项以通过Series.interpolate(GH1206)中的索引值进行插值
- 为DataFrame添加
max_colwidth
选项,默认值为50 - 将DataFrame通过rpy2转换为R data.frame(GH1282,)
- 在DataFrame上添加keys()方法(GH1240)
- 将新的
match
函数添加到API(类似于R)(GH502) - 向解析器添加dayfirst选项(GH854)
- 将
method
参数添加到align
方法,用于前进/后退填充(GH216) - 添加Panel.transpose方法用于重新排列轴(GH695)
- 添加新的
cut
函数(在R之后进行图案化),用于将数据离散为相等的范围长度bin或您选择的任意断点(GH415) - 添加新的
qcut
用于分割(GH1378) - 添加
value_counts
顶级数组方法(GH1392) - 添加了Andrews曲线plot tupe(GH1325)
- 添加滞后图(GH1440)
- 添加autocorrelation_plot(GH1425)
- 添加对tox和Travis CI的支持(GH1382)
- 添加对GroupBy中分类使用的支持(GH292)
- 将
any
和all
方法添加到DataFrame(GH1416) - 将
secondary_y
选项添加到Series.plot - 添加实验
lreshape
函数,用于将宽度重新整形为长整型
Improvements to existing features¶
- 在索引类中切换到基于klib / khash的哈希表,以在许多情况下获得更好的性能并降低内存占用
- 从scipy.stats装运一些函数,以减少依赖,例如。 Series.describe和DataFrame.describe(GH1092)
- 可以通过将列表或数组列表传递给Series,DataFrame构造函数等来创建MultiIndex。(GH831)
- 可以将数组和列名称一起传递给DataFrame.set_index(GH402)
- 通过显着边距(GH836)提高同构DataFrame对象的“方形”重建索引的速度
- 在DataFrame构造函数(GH406)中传递MaskedArrays时处理更多的类型
- 改进整数键连接操作的性能(GH682)
- 可以将多个列传递给GroupBy对象,例如grouping [[col1,col2]]仅聚合值列的子集(GH383)
- 为scatter_matrix对角线添加histogram / kde图选项(GH1237)
- 为Series / DataFrame.rename和sort_index,DataFrame.drop_duplicates(GH805,GH207)添加inplace选项
- 更多有用的错误消息,当没有传递到Series.reindex(GH1267)
- 可以将数组和标量作为dict-value输入混合到DataFrame ctor(GH1329)
- 在图表中使用DataFrame列的名称作为图例标题
- 在可能的情况下在布尔索引操作中保留DatetimeIndex中的频率
- 在数据对齐操作中(GH867)提升datetime.date值
- 将
order
方法添加到索引类(GH1028) - 避免在大型单调散列表索引(GH1160)中创建散列表
- 在HDFStore中存储时区(GH1232)
- 启用HDFStore中稀疏数据结构的存储(GH85)
- 启用Series.asof以处理时间戳输入数组
- DataFrame.corr的Cython实现的速度提高了> 100x(GH1349,GH1354)
- 在GroupBy.transform(GH1364)中自动排除“nuisance”列
- 在GroupBy.transform(GH1362)中支持函数作为字符串
- 在图中使用索引名称为xlabel / ylabel(GH1415)
- 将
convert_dtype
选项添加到Series.apply,以便能够将数据保留为dtype = object(GH1414) - 可以在concat中指定所有索引级别名称(GH1419)
- 将
dialect
关键字添加到解析器以引用约定(GH1363) - 启用DataFrame [bool_DataFrame] + =值(GH1366)
- 为
get_data_yahoo
添加retries
参数,以尝试阻止Yahoo!API 404s(GH826) - 通过使用O(N)分类排序来提高重整的性能
- 如果没有索引传递(GH1494),系列名称将用于DataFrame的索引
- DataFrame.to_csv中的头参数可以接受要使用的列名称列表,而不是对象的列(GH921)
- 将
raise_conflict
参数添加到DataFrame.update(GH1526) - 支持ExcelFile中的类文件对象(GH1529)
API Changes¶
- 将pandas._tseries重命名为pandas.lib
- 将因子重命名为分类并添加改进。许多分类错误修复
- 频率名称大修,WEEKDAY / EOM和@已弃用的规则。get_legacy_offset_name添加了向后兼容性功能
- 在DataFrame中增加ValueError .__ nonzero__,因此“if df”不再有效(GH1073)
- 默认情况下,更改BDay(工作日)以不将日期标准化(GH506)
- 删除不建议使用的DataMatrix名称
- 用于重叠的默认合并后缀现在具有下划线,而不是句号,以方便选项卡完成等。(GH1239)
- 在整个代码库中不再使用offset,time_rule timeRule参数
- 默认情况下,Series.append和DataFrame.append不再检查重复的索引,添加verify_integrity参数(GH1394)
- Refactor因子类,旧的构造函数移动到Factor.from_array
- MultiIndex的修改内部在内部使用更少的内存(不再表示为元组数组),加快构建时间和许多构造中间分层索引的方法(GH1467)
Bug Fixes¶
- 通过切换到datetime64(GH179),修复OverflowError在HDFStore中存储1970年之前的日期
- 修复二月闰年结束在YearEnd偏移中的逻辑错误
- 系列([False,nan])被转换为float64(GH1074)
- 修复boolean系列和带有布尔值和NA的对象系列之间的二进制运算(GH1074,GH1079)
- 无法通过.ix(GH1142)将整个数组分配给混合类型DataFrame中的列
- 修正浮点索引值的标签分片问题(GH1167)
- 修复由传递给groupby的空组引起的segfault(GH1048)
- 在有NaN标签(GH522)的情况下修复偶尔不正确的重建索引
- 修复不精确的逻辑,导致.apply(GH1183)的奇怪系列结果
- 一次取消堆叠多个级别,在某些情况下避免空列。修复数据透视表错误(GH1181)
- 当索引名称与标签(GH1217)一致时,修复Series / DataFrame上MultiIndex的格式
- 将Excel 2003#N / A作为NaN从xlrd(GH1213,GH1225)处理
- 通过移动到datetime64表示(GH1081,GH809)来修复与HDFStore相关的时间戳区域设置相关反序列化问题
- 修复DataFrame.duplicated / drop_duplicates NA值处理(GH557)
- 实际上在快速还原器中引发异常(GH1243)
- 修复0.7.3(GH969)的各种时区处理错误
- GroupBy on level = 0丢弃索引名称(GH1313)
- 更好的错误消息与不可编辑的DataFrames(GH1307)
- 使用unicode索引值(GH1279)的系列.__ repr__对齐方式
- 如果没有任何内容传递给reindex(GH1267),则会显示更好的错误消息
- DataFrame.drop_duplicates中更稳健的NA处理(GH557)
- 解决基于语言区域和前时代的HDF5时间戳反序列化问题(GH973,GH1081,GH179)
- 实现Series.repeat(GH1229)
- 使用namedtuple和其他元组子类(GH1026)修复索引
- 修复float64切片错误(GH1167)
- 使用逗号(GH796)解析整数
- 修复groupby不正确的数据类型,当组由一个值(GH1065)
- 修正由浮点误差(GH1090)导致的纳瓦中的负方差可能性
- 一致地设置组件上的名称(GH184)
- 将dict返回值视为GroupBy.apply中的序列(GH823)
- 在GroupBy.transform(GH1365)中确定DataFrame的列选择
- 修复MultiIndex部分索引错误(GH1352)
- 通过.ix(GH1432)启用混合类型DataFrame中的行分配
- 在分组时重置索引映射Cython中的系列(GH1423)
- 使用非唯一索引(GH1421)修复外部/内部DataFrame.join
- 修复MultiIndex groupby具有空的低级别的错误(GH1401)
- 使用系列调用fillna将具有与dict(GH1486)相同的行为
- SparseSeries减少错误(GH1375)
- 修复HDFStore中的unicode序列化问题(GH1361)
- 将关键字传递到DataFrame.boxplot(GH1493)中的pyplot.boxplot
- MonthBegin中的错误修复(GH1483)
- 在下拉菜单中保留MultiIndex名称(GH1513)
- Fix Panel DataFrame切片分配错误(GH1533)
- 不要在read_ *函数(GH1547)中使用locals()
pandas 0.7.3¶
发布日期: 2012年4月12日
New Features¶
- 支持非唯一索引:索引和选择,多对一和多对多连接(GH1306)
- 已添加固定宽度文件阅读器,read_fwf(GH952)
- 将group_keys参数添加到groupby,以便在apply(GH938)的结果中不将组名称添加到MultiIndex
- DataFrame现在可以接受非整数标签分片(GH946)。以前只有DataFrame.ix能够这样做。
- DataFrame.apply现在保留Series对象(GH983)上的名称属性
- 与非数字值的数值数据框架比较现在引起正确的TypeError(GH943)。以前提出“PandasError:DataFrame构造函数未正确调用!
- 将
kurt
方法添加到Series和DataFrame(GH964) - 可以传递列的dict - > list / set文本解析器的NA值(GH754)
- 允许用户在文本解析器中指定NA值(GH754)
- 解析器检查openpyxl依赖关系,如果找不到则会引发ImportError(GH1007)
- 新的工厂函数创建HDFStore对象,可以在with语句中使用,因此用户不必显式调用HDFStore.close(GH1005)
- pivot_table现在更灵活,具有与groupby相同的参数(GH941)
- 添加堆叠棒图(GH987)
- pandas / tools / plotting.py中的scatter_matrix方法(GH935)
- DataFrame.boxplot返回事后样式的绘图结果(GH985)
- 短版本号可访问为pandas.version.short_version(GH930)
- panel.to_frame(GH942)中的其他文档
- 更多信息Series.apply docstring关于元素适用(GH977)
- rpy2安装注意事项(GH1006)
- 向hist方法添加旋转和字体大小选项(GH1012)
- 在OLS.y_predict的结果中使用外生/ X变量索引。添加OLS.predict方法(GH1027,GH1008)
API Changes¶
Bug Fixes¶
- 在使用MultiIndex索引(GH1013)选择DataFrame中的行的一部分时修复逻辑错误
- 与不同长度系列的系列比较导致崩溃(GH1016)。
- 修复选择分层索引行(GH1013)部分时的索引编制错误
- DataFrame.plot(logy = True)没有效果(GH1011)。
- SparsePanel-Panel(GH1015)之间的算术运算
- 具有非ASCII字符(GH1010)的MultiIndex中的Unicode repr问题
- 如果完全匹配不存在,则DataFrame.lookup()返回不一致的结果(GH1001)
- DataFrame算术运算不处理无NA(GH992)
- DataFrameGroupBy.apply返回不正确的结果(GH991)
- Series.reshape对于多个维度返回不正确的结果(GH989)
- Series.std和Series.var忽略ddof参数(GH934)
- DataFrame.append丢失索引名称(GH980)
- DataFrame.plot(kind ='bar')忽略颜色参数(GH958)
- 指数比较结果不一致(GH948)
- 从包含NaN的数据(GH846)构造不正确的数据框架
- 删除groupby结果中的默认“result”名称(GH995)
- DataFrame.from_record不再突变输入列(GH975)
- 分组时使用索引名称(GH1313)
pandas 0.7.2¶
发布日期: 2012年3月16日
New Features¶
Improvements to existing features¶
- 不要在Grouper.size中使用groups dict(GH860)
- 对Series.value_counts使用khash,向algorithms.py(GH861)中添加原始函数
- 通过GroupBy(GH882)上的属性启用列访问
- 通过DataFrame,Panel(GH883)上的属性启用设置现有列
- 拦截__builtin __。groupby中的总和(GH885)
- 可以将dict传递给DataFrame.fillna,以便每列使用不同的值(GH661)
- 可以通过传递.ix中的值列表来选择多个层次组(GH134)
- 将级别关键字添加到
drop
以从级别中删除值(GH159) - 在DataFrame.from_records(GH893)上添加
coerce_float
选项 - 如果传递的date_parser在
read_csv
中失败,则抛出异常 - 将
axis
选项添加到DataFrame.fillna(GH174) - 修复面板以使其更容易子类化(GH888)
Bug Fixes¶
- 修复groupby中溢出相关的错误(GH850,GH851)
- 修正解析器中无效的错误讯息(GH856)
- 更好的错误msg数据帧的失败布尔切片(GH859)
- Series.count不能在级参数(GH869)中接受字符串(级别名称)
- 组索引平台int检查(GH870)
- concat on axis = 1和ignore_index = True会引发TypeError(GH871)
- 其他unicode处理问题已解决(GH795)
- 修复Panel中基于多索引的访问失败(GH880)
- 修复DataFrame布尔切片分配失败(GH881)
- 修复SparseDataFrame(GH887)的combineAdd NotImplementedError
- 修正DataFrame.to_html编码和栏(GH890,GH891,GH909)
- 修复混合类型DataFrame(GH910)中的无效填充处理
- 修正DataFrame.set_value与不存在的行/ col(GH911)
- 在排除妨碍列(GH916)时修复groupby中的格式错误的块
- 修复dtype =对象数组中的不一致NA处理(GH925)
- 修复ewmcov(GH862)中缺少质心计算
- 打开只读HDF5文件(GH847)时不要引发异常
- 修复0长度系列(GH917)中可能的超范围内存访问
pandas 0.7.1¶
发布日期: 2012年2月29日
New Features¶
- 将
to_clipboard
函数添加到pandas命名空间以将对象写入系统剪贴板(GH774) - 将
itertuples
方法添加到DataFrame,用于将数据帧的行作为元组(GH818) - 添加将fill_value和方法传递给DataFrame和系列对齐方法(GH806,GH807)的能力
- 在reindex,align方法中添加fill_value选项(GH784)
- 启用concat以从Series(GH787)生成DataFrame
- 将
between
方法到系列(GH802) - 为IPython HTML笔记本(GH773)添加HTML表示钩子到DataFrame
- 支持使用openpyxl读取Excel 2007 XML文档
Improvements to existing features¶
- 提高DataFrame上fillna的性能和内存使用率
- 可以沿着axis = 1串联一系列列表以获取DataFrame(GH787)
Bug Fixes¶
- 在将大量列插入单个DataFrame(GH790)时修复内存泄漏
- 使用新列附加length-0 DataFrame不会导致这些新列成为生成的并置DataFrame(GH782)的一部分
- 修复了传递字典分组工具和as_index为False(GH819)时的分组点角
- 修正了bool数组有时具有对象dtype(GH820)的错误
- 修复np.diff(GH816)上抛出的异常
- 修正to_records,其中列是非字符串(GH822)
- Fix Index.intersection其中索引具有无法比较的类型(GH811)
- 修复ExcelFile为两行文件(GH837)抛出异常
- 在csv解析器中添加更清晰的错误消息(GH835)
- 修复HDFStore中小数秒的丢失(GH513)
- 修复DataFrame连接,其中列具有数据时间(GH787)
- 解决numpy性能问题(GH817)
- 改善NA友好性比较操作(GH801)
- 修正浮点值的索引操作(GH780,GH798)
- 修复groupby情况导致格式错误的数据帧(GH814)
- 修复系列丢弃名称(GH812)的reindex行为
- 改进减量组计算(GH775)
- 捕获可能的NA分配给int / bool系列,异常(GH839)
pandas 0.7.0¶
发布日期: 2/9/2012
New Features¶
- 新
merge
函数用于有效地执行数据库/关系代数运算的全色域。重构现有的连接方法以使用新的基础设施,从而获得显着的性能提升(GH220,GH249,GH267) - 用于沿着轴连接DataFrame或Panel对象的新
concat
函数。可以形成其他轴的联合或交叉。改善DataFrame.append
(GH468,GH479,GH273)的效能 - 在
DataFrame.apply
(GH498)中处理不同索引的输出值 - 可以将字典列表(例如,浅JSON对象的列表)传递给DataFrame构造函数(GH526)
- 将
reorder_levels
方法添加到Series和DataFrame(GH534) - 将类似字幕的
get
函数添加到DataFrame和Panel(GH521) DataFrame.iterrows
方法,用于有效地遍历DataFrame的行- 添加了
DataFrame.to_panel
,代码改为LongPanel.to_long
reindex_axis
方法添加到DataFrame- 将
level
选项添加到DataFrame
和Series
上的二进制算术函数中, - Add
level
option to thereindex
andalign
methods on Series and DataFrame for broadcasting values across a level (GH542, GH552, others) - 向
Panel
添加基于属性的项访问权限,并添加IPython完成(PR GH554) - 将
logy
选项添加到Series.plot
以在Y轴上进行对数缩放 - 将
index
,header
和justify
选项添加到DataFrame.to_string
。添加选项至(GH570,GH571) - 可以将多个DataFrames传递到
DataFrame.join
,以便在索引上加入(GH115) - 可将多个面板传递给
Panel.join
(GH115) - 可以将多个DataFrames传递到DataFrame.append以连接(堆叠)和多个Series到
Series.append
- 为
DataFrame.to_string
添加justify
参数,以允许列标题的不同对齐 - 将
sort
选项添加到GroupBy以允许禁用可能加速的组键排序(GH595) - 可以将MaskedArray传递给Series构造函数(GH563)
- 通过属性和IPython完成添加面板项目访问(GH554)
- 实现
DataFrame.lookup
,用于检索给定一系列行和列标签的值的花样索引模拟(GH338) - 将
verbose
选项添加到read_csv
和read_table
以显示插入非数字列(GH614 - 可将连字号或系列的列表传递到
DataFrame.append
以连接多个行(GH464) - 将
level
参数添加到DataFrame.xs
以从其他MultiIndex级别选择数据。可以采用一个或多个级别,可能有一个键的元组,用于灵活检索数据(GH371,GH629) - 新的
crosstab
功能,可轻松计算频率表(GH170) - 可以传递一个函数列表,在DataFrame上与groupby进行聚合,生成带有分层列的聚合结果(GH166)
- 在数据帧中添加整数索引函数
iget
(GH628)中的irow
/iget
- 添加新
Series.unique
函数,显着快于numpy.unique
(GH658) - 将
cummin
和cummax
实例方法添加到Series
和DataFrame
(GH647) - 添加新
value_range
函数以返回数据帧的最小值/最大值(GH288) - Add
drop
parameter toreset_index
method ofDataFrame
and added method toSeries
as well (GH699) - 将
isin
方法添加到索引对象,与Series.isin
(GH GH657) - 在Panel上实现数组接口,使ufuncs工作(re:GH740)
- 将
sort
选项添加到DataFrame.join
(GH731) - 使用dtype =对象数组(GH737)改进二进制操作中NAs(传播)的处理
- 向Pandas对象添加
abs
方法 - 添加了
algorithms
模块以开始收集中心algos
API Changes¶
- 如果找不到标签而不是回退基于位置的索引(GH700),则使用整数索引的标签索引现在会引发KeyError,
- 基于标签的切片通过
ix
或[]
在系列上现在只有在找到标签的完全匹配或索引是单调的(对于范围选择) - 基于标签的切片和标签序列可以传递到用于获取和设置的序列上的
[]
(GH86) - 当索引中不包含索引时,[]运算符(
__getitem__
和__setitem__
)将使用整数索引引发KeyError。如果在索引中没有找到将导致微妙错误的键,先前的行为将落在基于位置的索引上。这现在与.ix
在DataFrame和朋友(GH328)上的行为一致 - 将
DataFrame.delevel
重命名为DataFrame.reset_index
,并添加弃用警告 - Series.sort (an in-place operation) called on a Series which is a view on a larger array (e.g. a column in a DataFrame) will generate an Exception to prevent accidentally modifying the data source (GH316)
- 删除弃用的
LongPanel
类(GH552)的重构 - 已弃用
Panel.to_long
,重命名为to_frame
DataFrame.to_string
中已弃用的colSpace
参数,重命名为col_space
- 在工程浮点格式化(GH GH395)中将
precision
重命名为accuracy
read_csv
的默认分隔符是逗号,而不是让csv.Sniffer
推断- Rename
col_or_columns
argument inDataFrame.drop_duplicates
(GH GH734)
Improvements to existing features¶
- 传递的列标签与数据不匹配(GH497)时,DataFrame构造函数中的错误消息更好
- 当传递Python函数时,大幅提高多GroupBy聚合的性能,在Cython中重用ndarray对象(GH496)
- 可以存储由元组和浮点索引的对象在HDFStore(GH492)
- 不要在Series.to_string中打印默认长度,添加length选项(GH GH489)
- 改进多分组的Cython代码进行聚合,而不必对数据排序(GH93)
- 通过在MultiIndex中存储元组来提高MultiIndex重建索引速度,测试向后取消匹配兼容性
- 通过使用专门的Cython take函数来提高列重建索引性能
- 标准用例的系列.__ getitem__的进一步性能调整
- 在某些情况下避免Index dict创建(即获取切片等)。),从以前的版本回归
- 如果未安装NumPy,则在setup.py中显示友好的错误消息
- 使用常用的NA处理操作(sum,mean等)在Panel类中(GH536)
- 在具有常规(非分层)索引(GH476)的DataFrame上调用
reset_index
时的默认名称分配 - 在系列/数据框架统计操作中,尽可能使用Cython化分组程序,并传递
level
参数(GH545) - 将大多数典型用例(GH374)中的skiplist数据结构移至C以加快
rolling_median
约5-10倍 - 从DataFrame对象的dict构造Panel的一些性能增强
- 通过删除下划线使得
Index._get_duplicates
成为公共方法 - 浮雕的更漂亮的打印和列间距固定(GH395,GH571)
- 将
bold_rows
选项添加到DataFrame.to_html(GH586) - 在按多列排序时,将
DataFrame.sort_index
的性能提高5倍或更多 - 当分别通过嵌套dict或dict(GH540,GH621)时,大幅提高DataFrame和Series构造函数的性能
- 修改setup.py,让pip / setuptools安装依赖项(GH GH507,各种pull请求)
- Unstack调用DataFrame与非MultiIndex将返回Series(GH GH477)
- 改进DataFrame.to_string和控制台格式以使显示数字的数量更一致(GH395)
- 如果可用于执行NaN友好的统计操作,则使用瓶颈(GH91)
- 在
DataFrame.apply
中指示函数应用程序失败的行/列(GH614)的Monkey-patch上下文 - 提高了read_table和read_clipboard分析控制台格式的DataFrames的能力(可以读取索引名称的行等)
- 在某些情况下(GH659),可以传递组标签列表(无需自己转换为ndarray)
groupby
- 使用Series.order的
kind
参数选择不同的排序类型(GH668) - 将选项添加到Series.to_csv以忽略索引(GH684)
- 在
read_csv
和其他解析函数中,添加delimiter
替代sep
- 通过同时聚合列的块(GH745),在具有许多列的DataFrames上基本提高groupby的性能
- 可以将文件句柄或StringIO传递给Series / DataFrame.to_csv(GH765)
- 可以将整数序列传递给DataFrame.irow(icol)和Series.iget(GH GH654)
- 一些矢量化字符串函数的原型
- 添加float64散列表以解决NAs(GH714)的Series.unique问题
- 从文件读取时记忆对象以减少内存占用
- 可以获取和设置具有包含“空”('')较低级别但不通过空级别(PR GH768)的分层列的DataFrame的列
Bug Fixes¶
- 在系列的超出范围索引中引发异常,而不是段错误,从早期版本回归(GH495)
- 修复在相同类型类(例如float32和float64)(GH486)中加入不同类型的DataFrames时出错
- 修复Series.min / Series.max中对象datetime.datetime(GH GH487)的错误
- 保留Index.union中的索引名称(GH501)
- 修正索引连接中的错误,导致在某些情况下丢失子类信息(如DateRange类型)(GH500)
- 接受空列表作为DataFrame构造函数的输入,从0.6.0(GH491)回归
- 可以在dtype =对象数组(GH490)中输出带有ndarray对象的DataFrame和Series
- 当在空系列(GH GH488)上调用时,从Series.to_string返回空字符串
- 修复将空列表传递到DataFrame.from_records的异常
- 修复Index.format错误(不包括名称字段)与数据时间与时间信息
- 修复系列中的标量值访问以始终返回NumPy标量,从先前版本回归(GH510)
- 在read_ *函数(GH505)中处理在文件开头跳过的行
- 在
set_value
方法中处理不当的dtype类型转换 - DataFrame上的一元式“ - ”/ __neg__运算符正在返回整数值
- Unbox 0-dim narrays从某些操作符像所有,任何在系列
- 修复DataFrame.combine中一般情况(GH529)中缺少的列的处理(是combine_first特定的)
- 在DataFrame索引中使用布尔列表和数组修复类型推理逻辑
- 处理所有NA系列。{corr,cov},引发异常(GH548)
- 通过多个级别与DataFrame的
level
参数聚合,系列stat方法被破坏(GH545) - 当转换器传递给read_csv时,修复Cython buf产生一个数字数组(传递给Cython类型推理函数时,缓冲区dtype不匹配)(GH GH546)
- 在使用MultiIndex(GH551)的DataFrame上使用.ix设置标量值时修复异常
- 修复两个带有不同偏移量的DateRange之间的外部联接,这些偏移量返回了无效的DateRange
- Cleanup DataFrame.from_records失败,其中index参数是整数
- 修复传递字典时Data.from_records失败
- 修复{Series,DataFrame} .rank中带有非浮点型dty的NA处理
- 修复与基于.ix的索引中的整数类型检查相关的错误
- 处理传递给DataFrame.from_records的非字符串索引名
- DataFrame.insert导致列名称字段被丢弃(GH527)
- 修正单调的多对一左连接中的错误
- 修复DataFrame.to_string以删除额外的列空白(GH571)
- 格式浮动为默认相同的位数(GH395)
- 添加装饰器将docstring从一个函数复制到另一个函数(GH449)
- 修正单调多对一左连接中的错误
- 修复__eq__ DateOffsets与不同的relativedelta关键字之间的比较
- 修复由解析器转换器返回字符串引起的异常(GH583)
- 使用整数名称修正MultiIndex格式错误(GH601)
- 修复了在Series.groupby(GH612)中处理非数字聚合的错误
- 在DataFrame.from_records(GH611)中使用tuple子类(例如namedtuple)修复TypeError
- 在Emacs中运行IPython时捕获误报的控制台大小
- 修复透视表边距中的小错误,索引名称丢失和长度-1行标签中的“全部”元组
- 添加对从HDFStore读取的传统WidePanel对象的支持
- 当源或目标数组为空时,修复pad_object和backfill_object方法中的超出边界
- 无法在元组列表中的DataFrame中创建新列
- 修复防止SparseDataFrame和SparseSeries使用groupby(GH666)的错误
- 在Series.sort / argsort(GH668)中使用排序类型
- 修正非标量,非熊猫对象(GH672)上的DataFrame操作
- 将整数传递给__setitem__(GH669)时,不要将DataFrame列转换为整数类型
- 修复由于MultiIndex中整数级别名称(GH678)导致的pivot_table中的下游错误
- 修复SparseSeries.combine_first时传递密集系列(GH687)
- 当DataFrame或Panel以带数据时间的表格式存储时,修复HDFStore加载中的性能回归
- 当传递n = 0的偏移时,在DateRange中增加异常(GH683)
- 修正get / set与.ix属性和整数位置不一致,但非整数索引(GH707)
- 对SparseSeries使用right dropna函数。返回密度系列的NA填充值(GH730)
- Fix Index.format错误导致字符串格式的日期时间索引的系列(GH726,GH758)
- 修复传递给ols的对象类型数组导致的错误(GH759)
- 修复在将标签列表传递到DataFrame时失去列名称的错误.__ getitem__,(GH662)
- 修正错误,顶层星期迭代器覆盖周实例
- 修复导致稀疏数组/系列/框架中内存泄漏的循环引用(GH663)
- 从整数浮点(GH670)修正整数切片
- 修正在所有NA情况下(GH676)的来自对象类型数组的纳米中的零分割误差
- 使用unicode(GH705,GH717,GH738)时修正csv编码
- 修复假设每个对象包含concat中的每个唯一块类型(GH708)
- 修复to_panel中多索引的排序检查(GH719,720)
- 确定在PyObjectHashtable中没有被视为NA
- 由于字节顺序混乱(GH747,GH748)而修复散列类型
- 修复SparseSeries.dropna在NA填充值(GH GH730)的情况下返回密集系列
- 使用map_infer而不是np.vectorize。如果转换器产生数字数组,则处理NA哨兵(GH753)
- 修正和改进DataFrame.rank(GH742)
- 修复捕获AttributeError而不是NameError的瓶颈
- 尝试在调用reset_index(GH726 GH440)时将非MultiIndex转换为更好的dtype
- 修复#1.QNAN0'float bug on 2.6 / win64
- 在DataFrame构造函数中允许子类的测试
- 修复set_index销毁列多索引(GH764)的问题
- 解决从朴素的DateOffset(GH770)生成DateRange的错误
- 修正DateRange.intersection中的错误,导致某些重叠范围(GH771)的结果不正确
Thanks¶
- Craig奥斯汀
- 克里斯·比灵顿
- Marius Cobzarenco
- 马里奥Gamboa-Cavazos
- Hans-Martin Gaudecker
- Arthur Gerigk
- 雅罗斯拉夫Halchenko
- 杰夫·哈默巴赫
- 马特·哈里森
- Andreas Hilboll
- Luc Kesters
- 亚当克莱因
- Gregg Lind
- 所罗门内格
- Wouter Overmeire
- 基督教prinoth
- Jeff Reback
- 山姆Reckoner
- Craig Reeson
- Jan Schulz
- 船长海鸟
- 泰德广场
- 格雷厄姆·泰勒
- Aman Thakral
- 克里斯·乌加
- Dieter Vandenbussche
- 德克萨斯州
- 叶婷婷
- ...大家我忘了
pandas 0.6.1¶
发布日期: 12/13/2011
API Changes¶
- 将DataFrame.from_records中的名称参数重命名为列。添加停用警告
- 布尔的get / set操作对布尔系列的Series将重建索引,而不是要求索引完全相等(GH429)
New Features¶
- 可以将Series传递到DataFrame.append,并将ignore_index = True用于追加单行(GH430)
- 将Spearman和Kendall相关选项添加到Series.corr和DataFrame.corr(GH428)
- 向Series,DataFrame和Panel添加新的get_value和set_value方法,以极低开销访问标量元素。通过处理更少的案例(GH437,GH438),df.get_value(row,column)比df [column] [row]为稀疏数据结构添加类似方法以实现兼容性
- 将Qt表小部件添加到沙盒(GH435)
- DataFrame.align可以接受系列参数,添加axis关键字(GH461)
- 实现新的SparseList和SparseArray数据结构。SparseSeries现在派生自SparseArray(GH463)
- set_printoptions(GH453)中的max_columns / max_rows选项
- 实现Series.rank和DataFrame.rank,快速版本的scipy.stats.rankdata(GH428)
- 实施DataFrame.from_items替代构造函数(GH444)
- DataFrame.convert_objects方法,用于推断对象列的更好的dtypes(GH302)
- 添加rolling_corr_pairwise函数用于计算相关矩阵面板(GH189)
- 将边距选项添加到pivot_table,用于计算子组聚合(GH GH114)
- 添加Series.from_csv函数(GH482)
Improvements to existing features¶
- 改进DataFrame.describe(不要不必要地复制数据)的内存使用情况(GH425)
- 使用相同的格式化功能将数据输出到控制台,如DataFrame(GH420)
- DataFrame.delevel将尝试为新列推断更好的dtype(GH440)
- 在DataFrame中排除非数字类型。{corr,cov}
- 覆盖Index.astype以启用dtype投射(GH412)
- 对Series .__ repr__使用相同的浮动格式化功能(GH420)
- 使用可用的控制台宽度输出DataFrame列(GH453)
- 在Panel中设置项目时接受ndarrays(GH452)
- 将DataFrame的__repr__打印到控制台时,控制台宽度(PR GH453)
- 在Series和DataFrame中将标量值查找在一般情况下优化25%或更多
- 可以将DataFrame / DataFrame和DataFrame / Series传递到rolling_corr / rolling_cov(GH462)
- 修复DataFrame中横截面数量的性能回归,影响DataFrame.dropna速度
- DataFrame中的列删除不复制数据(计算块上的视图)(GH GH158)
- MultiIndex.get_level_values可以采用级别名称
- 当DataFrame.plot在其中一列(GH478)上失败时出现更有帮助的错误消息
- 提高DataFrame的性能。{index,columns}属性查找
Bug Fixes¶
- 修复O(K ^ 2)由于插入许多列而不进行合并导致的内存泄漏,自从0.4.0(GH467)以来一直存在
- DataFrame.count应返回0系列,而不是NA(长度为0轴)(GH423)
- 修复Yahoo!pandas.io.data中的财务API用法(GH419,GH427)
- 修复上游错误导致Series.align与空系列失败(GH434)
- 传递给DataFrame.apply的函数可以返回一个列表,只要它的长度合适。从0.4(GH432)
- 使用.ix(GH431)索引时,不要“偶然”上传标量值
- 修复由as_index = False和选择的单列(GH421)引发的groupby异常
- 实现DateOffset .__ ne__导致下游错误(GH456)
- 修复__doc __-与py - > pyo转换py2exe相关的问题
- 修复了左侧连接具有重复单调标签的Cython代码的错误
- 修复在卸载GH451中描述的多个级别时出现的错误
- 排除dtype =对象数组中的NA值,从0.5.0(GH469)回归
- 在DataFrame.applymap中使用Cython map_infer函数来正确推断输出类型,处理元组返回值和其他破坏事件(GH465)
- 处理HDFStore中的浮点索引值(GH454)
- 修复由DataFrame(GH473)中的类型更改/项删除引起的陈旧列引用错误(缓存的序列对象)
- 当有重复时,Index.get_loc应该总是引发异常
- 处理不同索引的系列输入到DataFrame构造函数(GH475)
- 使用Python函数省略多组中的烦扰列
- Buglet在处理单个分组时一般适用
- 当将列表或元组列表传递给DataFrame构造函数(GH484)时,正确处理类型推断
- 在GroupBy.apply并置步骤(GH GH481)中保留索引/多索引名称
Thanks¶
- Ralph豆
- Luca Beltrame
- Marius Cobzarenco
- Andreas Hilboll
- Jev Kuznetsov
- 亚当利希滕斯坦
- Wouter Overmeire
- Fernando Perez
- Nathan Pinger
- 基督教prinoth
- Alex Reyfman
- Joon Ro
- 张哲
- 泰德广场
- 克里斯·乌加
- Dieter Vandenbussche
pandas 0.6.0¶
发布日期: 11/25/2011
New Features¶
- 将熔化函数添加到pandas.core.reshape
- 在Series和DataFrame描述统计中(GH313),将级别参数添加到逐个级别
- 将头和尾方法添加到Series,类似于DataFrame(PR GH296)
- 添加Series.isin函数,该函数检查每个值是否包含在传递的序列中(GH289)
- 将float_format选项添加到Series.to_string
- Add skip_footer (GH291) and converters (GH343) options to read_csv and read_table
- 对标准和面板OLS(GH GH303)添加适当的测试加权最小二乘法
- 添加drop_duplicates和重复的功能,分别用于删除重复的DataFrame行和检查重复行(GH319)
- 在DataFrame(GH347)上实现逻辑(布尔)运算符
&
,|
,^
- 添加Series.mad,表示绝对偏差,匹配DataFrame
- 添加QuarterEnd DateOffset(GH321)
- 将矩阵乘法函数点添加到DataFrame(GH65)
- 为Panel.from_dict添加orient选项,以简化混合类型面板的创建(GH359,GH301)
- 使用类似的orient选项添加DataFrame.from_dict
- 现在可以将元组列表或列表列表传递到DataFrame.from_records,以便快速转换为DataFrame(GH357)
- 可以将多个级别传递给groupby,例如df.groupby(level = [0,1])(GH GH103)
- 可以通过DataFrame.sort_index(GH92,GH362)中的多个列进行排序
- 将快速get_value和put_value方法添加到DataFrame和微性能调整(GH360)
- 将cov实例方法添加到Series和DataFrame(GH194,GH362)
- 将条形图选项添加到DataFrame.plot(GH348)
- 将idxmin和idxmax函数添加到Series和DataFrame,用于计算实现最大值和最小值的索引标签(GH286)
- 添加read_clipboard函数用于从操作系统剪贴板解析DataFrame,应该跨平台工作(GH300)
- 将nunique函数添加到用于计算唯一元素的序列中(GH297)
- 如果没有列传递(GH373),DataFrame构造函数将使用系列名称
- 在read_table / read_csv中支持正则表达式和更长的分隔符,但不处理引用的字符串(GH364)
- 添加DataFrame.to_html以将DataFrame格式化为HTML(GH387)
- MaskedArray可以传递给DataFrame构造函数,掩码值将被转换为NaN(GH396)
- 添加DataFrame.boxplot函数(GH368,其他)
- 可以将额外的args,kwds传递给DataFrame.apply(GH376)
Improvements to existing features¶
- 如果DateRange(GH298)中的日期解析失败,请提高更有帮助的异常
- 在具有MultiIndex(GH299)的轴上大幅提高GroupBy的性能
- 在系列repr(GH305)中的层次索引中打印级别名称
- 在对所选列执行GroupBy时返回DataFrame,as_index = False(GH308)
- 可以在DataFrame.join(GH312)中的参数传递向量到
- 如果repr中没有系列名称,则不显示系列名称,也可以省略short系列的长度(GH317)
- 默认情况下,在DataFrame.plot中显示图例,添加图例布尔标志(GH GH324)
- 显着提高Series.order的性能,这也使得np.unique在系列上更快(GH327)
- 在Series和DataFrame(GH341)中更快的级联计数
- 如果在Python 2.x运行时安装了dateutil 2.0(GH346),则抛出异常
- 使用具有许多“空”组合的多个键的显着GroupBy性能增强
- New Cython vectorized function map_infer speeds up Series.apply and Series.map significantly when passed elementwise Python function, motivated by GH355
- Cython化cache_readonly,从而在整个代码库(GH361)中实现了显着的微型性能增强
- 特殊Cython矩阵迭代器,用于应用任意缩减操作,性能比np.apply_along_axis(GH309)提高3-5倍
- 在传递的函数只需要一个ndarray(GH309)时,将raw选项添加到DataFrame.apply
- 提高MultiIndex.from_tuples的效能
- 可以将多个级别传递到堆栈和取消堆栈(GH370)
- 可以将多个值列传递到pivot_table(GH381)
- 可以使用名称设置的标准索引(GH393)调用DataFrame.delevel
- 在GroupBy中使用系列名称作为结果索引(GH363)
- Refactor Series / DataFrame stat方法使用常用的NaN友好函数集
- 在Cython转换例程中处理C级别的NumPy标量整数
Bug Fixes¶
- 在使用索引名称(GH290)写入DataFrame时,修复DataFrame.to_csv中的错误
- DataFrame应该在整合时清除其系列缓存,导致在某些角落情况下返回“陈旧”系列(GH304)
- 如果列具有元组列表(GH293),则DataFrame构造函数失败
- 确保Series.apply始终返回一个系列并实现Series.round(GH314)
- 支持Cython化groupby函数中的布尔列(GH315)
- 如果没有数字列,则DataFrame.describe不应失败,而应返回分类描述(GH323)
- 修正可能导致在DataFrame.to_string中以错误的顺序打印列的错误(如果列的特定列表已通过(GH325)
- 如果DataFrame列为整数(GH326),则修复图例绘图失败
- 将开始日期更改为Yahoo!pandas.io.data中的财务API(GH329)
- 修复未合并输入上的DataFrame.join失败(GH331)
- DataFrame.min / max将不会在混合类型DataFrame(GH337)上失败
- 修复read_csv / read_table在将列表传递到不按升序排列的index_col时发生故障(GH349)
- 修复失败时传递Int64Index到Index.union当两者都是单调的
- 修复将SparseSeries传递到(密集)DataFrame构造函数时的错误
- 在setup.py顶部添加了缺少的框(GH352)
- 在MultiIndex上更改is_monotonic,以便正确比较元组
- 修复MultiIndex外连接逻辑(GH351)
- 使用单键组别(GH358)设置索引名称属性
- 在非交换操作(如字符串连接)(GH353)中,在Series和DataFrame中反射二进制加法的错误修复
- setupegg.py将调用Cython(GH192)
- 在将列插入MultiIndex(GH366)后修复块合并错误
- 修正Index和Int64Index(GH367)之间的连接操作错误
- 在移动窗口函数中处理min_periods = 0情况(GH365)
- 在DataFrame.apply / pivot中使用空数据框架(GH378)修复了
- 当系列名称为元组时,修复repr异常
- 始终从asfreq(GH390)返回DateRange
- 将级别名称传递到swaplavel(GH379)
- 不要在MultiIndex.droplevel(GH394)中丢失索引名称
- 如果没有列或行,则根据传递的函数是否减少(GH389),在DataFrame.apply中推断更合适的返回类型
- 当所有行/列/值都为NA(GH384)时,始终从Series.min / max和DataFrame.min / max返回NA /
- 使用.ix /高级索引(GH397)启用部分设置
- 在卸载中正确处理混合类型DataFrames,不丢失类型信息(GH403)
- 在Index.format和Series中修复整数名格式化错误.__ repr__
- 处理传递给groupby的字符串以外的标签类型(GH405)
- 修复了当一个标签不包含在一个关卡中时,使用部分检索的基于.ix的索引中的错误
- 未索引索引名称(GH408)
- 级别名称应传递给GroupBy.apply(GH416)中的结果索引
Thanks¶
- Craig奥斯汀
- Marius Cobzarenco
- 乔尔十字
- 杰夫·哈默巴赫
- 亚当克莱因
- 托马斯Kluyver
- Jev Kuznetsov
- Kieran O'Mahony
- Wouter Overmeire
- Nathan Pinger
- 基督教prinoth
- 船长海鸟
- 张哲
- 泰德广场
- Aman Thakral
- 克里斯·乌加
- Dieter Vandenbussche
- carljv
- rsamson
pandas 0.5.0¶
发布日期: 10/24/2011
这个版本的pandas包括许多API更改(见下文)和从0.4.0之前的版本清理过时的API。还有错误修复,新功能,大量显着的性能增强,并且包括一个新的ipython完成符钩子,以启用对DataFrame列访问和属性(新功能)的选项卡完成。
除了这里列出的从0.4.3到0.5.0的更改之外,次版本4.1,0.4.2和0.4.3带来了一些重要的新功能和性能改进,值得一看。
感谢所有的bug报告,贡献的补丁和一般提供反馈图书馆。
API Changes¶
- index_col的read_table,read_csv和ExcelFile.parse默认参数现在为None。要使用一个或多个列作为结果DataFrame的索引,必须明确指定这些列
- 默认情况下,解析函数read_csv不再解析日期(GH GH225)
- 在面板回归中移除了不执行任何原则(GH155)的权重选项
- 将Series.to_string中的缓冲参数名称更改为buf
- Series.to_string和DataFrame.to_string现在默认返回字符串,而不是打印到sys.stdout
- 在各种to_string和to_csv函数中已弃用nanRep参数,有利于na_rep。将在0.6(GH275)中删除
- 在DataFrame.from_csv中将分隔符重命名为sep以保持一致性
- 更改Series.clip参数的顺序以与numpy.clip和添加的(未实现的)out参数的顺序相匹配,因此numpy.clip 可以在系列(GH272)上调用
- 系列函数已重命名(因此已弃用)在0.4系列中已删除:
- asOf,请使用asof
- toDict,请使用to_dict
- toString,请使用to_string
- toCSV,请使用to_csv
- 合并,使用地图
- applymap,使用应用
- combineFirst,请使用combine_first
- _firstTimeWithValue使用first_valid_index
- _lastTimeWithValue使用last_valid_index
- 在0.4系列中重命名/弃用的DataFrame函数已删除:
- asMatrix方法,使用as_matrix或值属性
- combineFirst,请使用combine_first
- getXS,使用xs
- 合并,使用加入
- fromRecords,请使用from_records
- fromcsv,请使用from_csv
- toRecords,请使用to_records
- toDict,请使用to_dict
- toString,请使用to_string
- toCSV,请使用to_csv
- _firstTimeWithValue使用first_valid_index
- _lastTimeWithValue使用last_valid_index
- toDataMatrix不再需要
- rows()方法,使用index属性
- cols()方法,使用列属性
- dropEmptyRows(),使用dropna(how ='all')
- dropIncompleteRows(),使用dropna()
- tapply(f),使用apply(f,axis = 1)
- tgroupby(keyfunc,aggfunc),使用groupby与axis = 1
Deprecations Removed¶
- indexField参数DataFrame.from_records
- Series.order中的missingAtEnd参数。请改用na_last
- Series.fromValue类方法,改用常规Series构造函数
- pandas.io.parsers中的函数parseCSV,parseText和parseExcel
- Index.asOfDate函数
- Panel.getMinorXS(使用minor_xs)和Panel.getMajorXS(使用major_xs)
- Panel.toWide,请改用Panel.to_wide
New Features¶
- 添加了带有标准连接选项的DataFrame.align方法
- 向read_csv和read_table方法添加了parse_dates选项,可选择尝试解析索引列中的日期
- 将nrows,chunksize和迭代器参数添加到read_csv和read_table。最后两个返回一个新的TextParser类,它能够通过平面文件的块(GH242)
- 添加了在DataFrame.join(GH214)中的多个列上加入的功能
- 已将私人_get_duplicates函数添加到索引,以更轻松地识别重复值
- 添加了对DataFrame的列属性访问权限,例如如果'A'是DataFrame中的列(GH213),则df.A等价于df ['A']
- 为DataFrame列添加了IPython选项卡完成钩子。(GH233,GH230)
- 对包含对象的系列实现Series.describe(GH241)
- 当加入键(GH248)时,将内部连接选项添加到DataFrame.join
- 可以通过将列表传递到__ getitem __(GH GH253)来选择一组DataFrame列
- 可以使用&和|到交叉/联合索引对象(GH GH261)
- 向pandas命名空间(GH234)添加了pivot_table便利功能
- 已实施Panel.rename_axis函数(GH243)
- DataFrame将在控制台输出中显示索引级别名称
- 已实施Panel.take
- 添加set_eng_float_format函数以设置替代DataFrame浮点字符串格式
- 添加方便set_index函数用于从现有列创建DataFrame索引
Improvements to existing features¶
- 文件解析函数read_csv和read_table的主要性能改进
- 增加了Cython函数,用于将元组转换为ndarray的速度非常快。加快许多MultiIndex相关操作
- 像read_csv和read_table之类的文件解析函数将显式检查解析的索引是否有重复,并引发更有帮助的异常,而不是推迟检查直到稍后
- 将重构的合并/连接代码转换为整齐的类,并在float / object情况下禁用不必要的计算,从而使性能提升10%(GH211)
- 将混合类型DataFrame对象上的DataFrame.xs的速度提高了约5倍,从0.3.0回归(GH215)
- 使用新的DataFrame.align方法,可以将不同索引的DataFrame对象之间的二进制操作加速10-25%。
- 显着加快了嵌套dict转换为DataFrame(GH212)
- 如果需要,可以将层次索引级别名称传递到groupby而不是级别编号(GH223)
- 在DataFrame.to_csv(GH244)中添加对不同分隔符的支持
- 添加更多有用的错误消息,当从源目录(GH250)导入大熊猫安装后
- 在大型混合类型DataFrame对象上显着加快DataFrame __ repr __和计数
- 在Cython模块构建中更好地处理pyx文件依赖性(GH271)
Bug Fixes¶
- read_csv / read_table修复
- 围绕matplotlib“bug”,其中[:,np.newaxis]失败。应向上游报告matplotlib(GH224)
- DataFrame.iteritems未返回具有name属性集的Series。DataFrame._series也不是
- 可以在HDFStore中存储datetime.date对象(GH231)
- 索引和系列名称现在存储在HDFStore中
- 修复了在GroupBy.apply操作(GH237)中将数据上传到对象dtype的问题
- 固定外部连接错误与空DataFrame(GH238)
- 可以创建空面板(GH239)
- 在传递带有1个条目的列表(GH246)时修复单键上的联接
- 在使用all-NA列(GH251,GH254)绘制DataFrame时,请勿引发异常
- 在整数DataFrames(GH241)上调用时出错最小/最大错误
- DataFrame.iteritems和DataFrame._series不分配名称属性
- 面板.__ repr__引发长度为0的长轴/短轴异常
- DataFrame.join在具有空DataFrame的键上生成不正确的列
- 已实施MultiIndex.diff(GH260)
- Int64Index.take和MultiIndex.take丢失名称字段,修复下游问题GH262
- 可以将元组列表传递到系列(GH270)
- 可以将级别名称传递到DataFrame.stack
- 支持在MultiIndex和Index之间设置操作
- 修复MultiIndex集合操作中的许多角落案例 - 修复MultiIndex处理错误与GroupBy.apply当返回的组没有索引相同
- 修复DataFrame.apply中的错误
- 设置DataFrame索引没有导致系列缓存得到清除
- 各种int32 - > int64平台特定的问题
- 使用MultiIndex(GH285)解析文件时,不要过于激烈地转换为整数
- 修正切片时的错误开始前带有负索引的系列
Thanks¶
- 托马斯Kluyver
- 丹尼尔Fortunov
- Aman Thakral
- Luca Beltrame
- Wouter Overmeire
pandas 0.4.3¶
发布日期: 10/9/2011
是很大程度上从0.4.2的bug修复版本,但也包括一些新的增强功能。此外,熊猫现在可以安装和使用的Python 3绞盘Thomas Kluyver!)。
New Features¶
Improvements to existing features¶
- 如果未安装,请跳过xlrd相关的单元测试
- Index.append和MultiIndex.append可以接受要连接在一起的Index对象的列表
- 对不同索引的SparseSeries对象进行改变的二进制运算,以使用基于整数的(密集)对齐逻辑,该逻辑对于更大数量的块(GH205)更快,
- 重构系列.__ repr __是一个更干净和一致
API Changes¶
- Series.describe和DataFrame.describe现在带来25%和75%四分位数,而不是10%和90%十分位数。其他输出没有改变
- Series.toString将打印废弃警告,已被de-camelCased到to_string
Bug Fixes¶
- 修复调用交集时索引和Int64Index之间的交互干扰。实施Int64Index.intersection
- MultiIndex.sortlevel丢弃级别名称(GH202)
- 修复由于MultiIndex对象(GH201)的不当连接而导致的groupby,join和append中的错误
- 修复从0.4.1,isnull和notnull的回归停止在其他类型的标量对象,如datetime.datetime
- 尝试将空DataFrame或LongPanel写入HDFStore(GH204)时提高更有帮助的异常
- 使用stdlib csv模块在DataFrame.to_csv(GH206,Thomas Kluyver)中使用逗号正确转义字符串,
- 修复Python ndarray访问Cython代码中的稀疏阻塞索引完整性检查
- 修复错误写入系列到Python 3中的CSV(GH209)
- 其他Python 3错误修正
Thanks¶
- 托马斯Kluyver
- rsamson
pandas 0.4.2¶
发布日期: 10/3/2011
是一个具有几个错误修复的性能优化版本。新的t64Index和新的合并/加入Cython代码和相关的Python基础设施是主要的新增内容
New Features¶
- 添加了具有专用连接,联合,交集的快速Int64Index类型。将导致基于int64的时间系列的显着性能增强(例如,使用NumPy的datetime64一天),以及对存储记录数组类数据的DataFrame对象的更快的操作。
- 重构的索引类具有连接方法和整个代码库中的关联数据对齐例程,以便能够利用优化的连接/合并例程。
- 添加了Series.align方法,用于通过选择连接方法对齐两个系列
- 编写更快的Cython数据对齐/合并例程,导致实质性的速度增加
- 将is_monotonic属性添加到具有关联Cython代码的索引类中,以评估Index值的单调性
- 将方法get_level_values添加到MultiIndex
- 在DataFrame内部实现BlockManager对象的浅拷贝
Improvements to existing features¶
- 改进了isnull和notnull的性能,从v0.3.0(GH187)
- 写模板/代码生成脚本自动生成Cython代码为各种功能,需要可用于4种主要的数据类型用于熊猫(float64,bool,object,int64)
- 与DataFrame.join相关的重构代码,以便不需要创建每个DataFrame参数中的数据的中间对齐副本。大幅提升效果(GH176)
- 基本上改进了通用Index.intersection和Index.union的性能
- 改进了DateRange.union的性能,重叠范围和不可缓存的偏移量(如Minute)。对重叠范围实施类似快速DateRange.intersection。
- 已实施BlockManager.take,可在混合类型DataFrame对象(GH104)上显着提高
- 改进了Series.sort_index的性能
- 显着的groupby性能增强:在DataFrame内部中删除不必要的完整性检查,减慢了切片操作以检索组
- 在将dict传递给DataFrame groupby聚合时使用axis!= 0添加信息性异常
API Changes¶
Bug Fixes¶
Thanks¶
- Uri Laserson
- Scott Sinclair
pandas 0.4.1¶
发布日期: 9/25/2011
是主要是一个bug修复版本,但包括一些新的功能和改进
New Features¶
- 添加了新的DataFrame方法get_dtype_counts和属性dtypes
- Setting of values using
.ix
indexing attribute in mixed-type DataFrame objects has been implemented (fixes GH135) - read_csv可以将多个列读取到MultiIndex中。DataFrame的to_csv方法将正确写出一个可以读回的MultiIndex(GH151,感谢Skipper Seabold)
- 在Cython中编写了快速时间序列合并/连接方法。将以后集成到DataFrame.join和相关函数中
- 向DataFrame.append添加了ignore_index选项,用于组合存储在DataFrame中的非索引记录
Improvements to existing features¶
API Changes¶
Bug Fixes¶
- 固定的DataFrame构造函数错误导致下游问题(例如.copy()失败)时传递一个Series作为值与列名和索引
- 在DataFrame上固定单键组别,其中as_index = False(GH160)
- Series.shift在整数系列(GH154)上发生故障
- unfack方法在重复分层标签的情况下产生不正确的输出。现在将出现异常(GH147)
- 调用具有级别参数的计数会导致之前的NumPy(GH169)中的reduceat故障或segfault
- 修复DataFrame.corrwith以自动排除非数字数据(GH GH144)
- Unicode处理DataFrame.to_string(GH138)中的错误修复
- 排除导致平台特定故障(GH149)的OLS简并单元测试用例
- Skip blosc-dependent unit tests for PyTables < 2.2 (GH137)
- 调用DateRange上的复制没有将属性复制到新对象(GH168)
- 修复HDFStore中的错误,其中Panel数据可以附加到具有不同项顺序的表,从而导致读取不正确的结果
Thanks¶
- 雅罗斯拉夫Halchenko
- Jeff Reback
- 船长海鸟
- Dan Lovell
- 尼克Pentreath
pandas 0.4.0¶
发布日期: 9/12/2011
New Features¶
- pandas.core.sparse module: “Sparse” (mostly-NA, or some other fill value) versions of Series, DataFrame, and Panel. 对于低密度数据,这将导致显着的性能提升和更小的内存占用。向系列,DataFrame和面板添加了to_sparse方法。有关这些的更多信息,请参阅联机文档
- Series / DataFrame上的花式索引操作符,例如通过.ix操作符。支持获取和设置值;然而,设置值仅当前在均匀类型的DataFrame对象上工作。像:
- 系列。[[d1,d2,d3]]
- frame.ix [5:10,['C','B','A']],frame.ix [5:10,'A':'C']
- frame.ix [date1:date2]
- 显着增强了groupby功能
- 可以组合多个键,例如df.groupby(['key1','key2'])。迭代与多个分组产品一个扁平的元组
- “不一致”列(不可聚合)将自动从DataFrame聚合操作中排除
- 添加自动“分派到Series / DataFrame方法以更容易地调用组上的方法。例如即使std未在GroupBy类上实现,s.groupby(crit).std
- 分层/多级索引
- 新建MultiIndex类。将MultiIndex整合到系列和DataFrame中,将奇异索引,切片,__getitem__和__setitem重新建立索引等。向groupby添加了级关键字参数,以启用按MultiIndex
- 在DataFrame和系列上的新数据重塑功能:stack和unfack
- 与MultiIndex集成以支持复杂的数据重整
- 索引对象(轴的标签)现在能够保存元组
- Series.describe,DataFrame.describe:生成一个类似R的表格,其中包含每个数据列的摘要统计信息
- DataFrame.quantile,Series.quantile用于计算请求轴上的数据样本分位数
- 添加了一般的DataFrame.dropna方法来替换dropIncompleteRows和dropEmptyRows,不赞成使用。
- 系列算术方法,带有可选的fill_value用于缺少数据,例如a.add(b,fill_value = 0)。如果一个位置缺失,它仍然会丢失在结果中。
- fill_value选项已添加到DataFrame。{add,mul,sub,div}方法类似于Series
- 使用DataFrame对象的布尔索引:data [data> 0.1] = 0.1或data [data> other] = 1。
- DateRange中的pytz / tzinfo支持
- tz_localize,tz_normalize和tz_validate方法
- 将ExcelFile类添加到pandas.io.parsers,用于从单个Excel 2003文档解析多个图纸
- GroupBy聚合现在可以选择广播,例如生成与传播的聚合值相同大小的对象
- 在所有数据结构中添加了选择功能:基于任意标准(函数返回布尔值)的reindex轴,例如。 frame.select(lambda x:x,'foo'in x,axis = 1)
- DataFrame.consolidate方法,与重新设计的内部结构相关的API函数
- DataFrame.insert方法在指定位置插入列,而不是默认的__setitem__行为(将其放在结尾)
- pandas.io.pytables中的HDFStore类已使用来自其他人的Jeff Reback的修补程序大量重写。它现在支持混合类型DataFrame和系列数据,并且可以存储面板对象。它还可以选择查询DataFrame和面板数据。从代码中显式支持从旧版HDFStore加载数据
- 添加了set_printoptions方法来修改DataFrame表单输出的外观
- rolling_quantile函数;移动版本Series.quantile / DataFrame.quantile
- 通用rolling_apply移动窗口函数
- 将删除方法添加到系列,DataFrame等。其可以从轴丢弃一组标签,产生新对象
- reindex方法现在运行复制选项,因此不强制数据被复制,然后生成的对象被索引相同
- 向系列和面板添加了sort_index方法。将DataFrame.sort重命名为sort_index。立即离开DataFrame.sort。
- 向所有数据结构的统计实例方法添加了
skipna
选项 - pandas.io.data模块提供一致的界面,用于从多个不同来源读取时间序列数据
Improvements to existing features¶
- 二维DataFrame和DataMatrix类已在内部广泛重新设计为单个类DataFrame,尽可能保留其最佳性能特征。这应该减少用户对使用哪个类的混淆。
- 注意,在引擎盖下有一个新的基本上“延迟评估”方案在添加列到DataFrame。在某些操作中,类型块将被“合并”,但不是之前。
- 由于内部系列缓存机制(它们都是底层数据的所有视图),重复访问列的DataFrame现在明显快于DataMatrix
- 混合类型数据的列排序现在在DataFrame中完全一致。在以前的版本中,DataMatrix中的列顺序不一致
- 改进了带有负数的DataMatrix的控制台/字符串格式
- 改进的表格数据解析函数read_table和read_csv:
- 为pandas.io.parsers函数添加了skiprows和na_values参数,以实现更灵活的IO
- pandas.io.parsers中的parseCSV / read_csv函数现在可以获取自定义NA值的列表,跳跃
- 可以切片DataFrame并获取数据视图(均匀类型),例如。 frame.xs(idx,copy = False)或frame.ix [idx]
- 在系列和DataFrame中进行许多速度优化
- 调用
groupby
函数时对组的热衷评估,因此如果存在分组函数的异常,它将立即引发,而稍后当需要组时 - datetools.WeekOfMonth偏移可以用n参数化,不同于1或-1。
- 像平均值,std,var,偏移的DataFrame上的统计方法现在将忽略非数值数据。之前生成不是非常有用的错误消息。已将numeric_only标志添加到DataFrame.sum和DataFrame.count,以在这些方法中启用此行为(默认情况下禁用)
- DataFrame.pivot通用化,可将多个列转换为具有分层列的DataFrame
- DataFrame构造函数可以接受结构化/记录数组
- 面板构造函数可以接受类DataFrame对象的dict。不需要再使用from_dict(from_dict)。
API Changes¶
- DataMatrix变量现在引用DataFrame,将在两个版本中删除
- WidePanel现在称为面板。pandas命名空间中的WidePanel变量现在指的是重命名的Panel类
- LongPanel和面板 / WidePanel现在不再有一个公共子类。LongPanel现在是DataFrame的子类,它具有多个附加方法和分层索引,而不是已删除的旧LongPanelIndex对象。旧版LongPanel腌菜可能无法正常载入
- 现在需要Cython从开发分支构建pandas。这是为了避免继续检查cythonized C文件到源代码控制。从发布的源代码分发构建不需要Cython
- Cython代码已上移到顶层pandas / src目录。Cython扩展模块已经重命名并从lib子包升级到顶层,即
- pandas.lib.tseries - > pandas._tseries
- pandas.lib.sparse - > pandas._sparse
- DataFrame pickling格式已更改。提供了传统pickles的向后兼容性,但建议考虑基于PyTables的HDFStore用于存储具有更长预期保存期限的数据
- 已将副本参数添加到DataFrame构造函数中,以避免不必要的数据复制。传递到构造函数中时,默认情况下不再复制数据
- 处理DataFrame中的布尔类型已经改进,以支持具有NA / NaN值的布尔数据的存储。在它被转换为float64之前,所以这不应该(在理论上)导致API破损
- 为了优化性能,Index对象现在只检查它们的标签在唯一性重要时(即当有人去执行查找时)是唯一的。这是一个潜在的危险的权衡,但会导致许多地方(如groupby)更好的性能。
- 使用Series的布尔索引现在必须具有相同的索引(标签)
- 向后兼容性支持在DateRange类中的begin / end / nPeriods关键字参数已被删除
- 更多直观/更短的填充别名已添加到ffill(用于pad)和bfill(用于回填使用它们的函数:reindex,asfreq,fillna。
- pandas.core.mixins代码已移至pandas.core.generic
- 缓冲关键字参数(例如DataFrame.toString)重命名为buf,以避免使用Python内置名称
- DataFrame.rows()已移除(使用DataFrame.index)
- 对DataFrame.cols()添加了弃用警告,将在下一个版本中删除
- DataFrame弃用和de-camelCasing:合并,asMatrix,toDataMatrix,_firstTimeWithValue _lastTimeWithValue,toRecords,fromRecords,tgroupby,toString
- pandas.io.parsers方法弃用
- parseCSV现在是read_csv,关键字参数已被de-camelCased
- parseText现在为read_table
- parseExcel替换为ExcelFile类及其解析方法
- fillMethod参数(在先前版本中已弃用)已删除,应替换为方法
- Series.fill,DataFrame.fill和Panel.fill已移除,请改用fillna
- groupby函数现在排除组列表中的NA / NaN值。这与R的行为与NA在因素与tapply函数
- 从pandas命名空间中移除了parseText,parseCSV和parseExcel
- Series.combineFunc重命名为Series.combine,并且使用fill_value关键字参数
- 已删除pandas.core.pytools模块。代码已移至pandas.core.common
- Tacked on groupName attribute for groups in GroupBy renamed to name
- 面板/ LongPanel dims属性重命名为形状以更符合
- 切换系列现在返回视图
- 更多系列淘汰/重命名:toCSV到to_csv,asOf到asof,merge到映射,applymap到应用,toDict到to_dict,到combine_first。将打印FutureWarning。
- DataFrame.to_csv不会默认写入“索引”列标签,因为输出文件可以在没有它的情况下读回。但是,有一个新的
index_label
参数。因此,您可以通过index_label='index'
来模拟旧的行为 - datetools.Week参数已从dayOfWeek重命名为工作日
- shift中的timeRule参数已被弃用,有利于对所有内容使用offset参数。因此,您仍然可以将时间规则字符串传递到offset
- 向read_csv,read_table,to_csv,from_csv添加可选的编码参数以处理unicode在python 2.x
Bug Fixes¶
- 在存在混合类型数据的情况下,pandas.io.parsers.parseCSV中的列排序将与CSV匹配
- 固定处理pandas.io.parsers中的Excel 2003日期
- DateRange缓存正在发生高分辨率DateOffset对象,例如DateOffset(seconds = 1)。这已经修复
- 修复DataFrame中的__truediv__问题
- 修复了在某些情况下阻止IO往返的DataFrame.toCSV错误
- 修复Series.plot中的错误,在特殊情况下导致matplotlib为barf
- 禁用索引对象与散列值,如ndarrays
- 将__ ne __实现添加到索引,以便像ts [ts!= idx]这样的操作可以工作
- 向DataFrame添加了__ ne __实现
- 在无序标签上调用fillna时出现错误/非直观结果
- 在布尔数据框架上调用sum
- 从使用标量值的dict创建DataFrame时修复错误
- 系列。{sum,mean,std,...}现在返回NA / NaN,当整个系列为NA
- NumPy 1.4到1.6的兼容性修补程序
- 修正rolling_cov中的偏差校正错误,也影响了rolling_corr
- 在PanelOLS类中存在固定和时间效应时,R平方值不正确
- HDFStore可以处理表格格式的重复,将采取
Thanks¶
- Joon Ro
- 迈克尔·潘宁顿
- 克里斯·乌加
- 克里斯·威瑟斯
- Jeff Reback
- 泰德广场
- Craig奥斯汀
- 威廉·费雷拉
- 丹尼尔Fortunov
- 托尼·罗伯茨
- 马丁·费尔德
- 约翰·马里诺
- 麦克纳马拉
- 贾斯汀·贝尔卡
- Dieter Vandenbussche
- Shane Conway
- 船长海鸟
- Chris Jordan-Squire
pandas 0.3.0¶
发布日期: 2011年2月20日
New features¶
- corrwith函数来计算两个DataFrame对象之间的列或行方向的相关性
- 可以布尔索引DataFrame对象,例如df [df> 2] = 2,px [last_px] = 0
- 添加比较魔术方法(__lt__,__gt__等)
- 灵活的显式算术方法(add,mul,sub,div等)
- 添加了reindex_like方法
- 向WidePanel添加了reindex_like方法
- 用于访问pandas.io.sql模块中的类SQL数据库的便利功能
- 在pandas.io.pytables模块中添加(仍然是实验性的)HDFStore类,用于存储使用HDF5 / PyTables的pandas数据结构
- 添加WeekOfMonth日期偏移
- pandas.rpy(实验)模块,提供rpy2和pandas之间的一些接口/转换
Improvements to existing features¶
- 单元测试覆盖:核心数据结构的100%线覆盖
- 速度增强to rolling_ {median,max,min}
- DataFrame和DataMatrix之间的列排序现在是一致的:在DataFrame不尊重列顺序之前
- 改进{Series,DataFrame} .plot方法更灵活(可以传递matplotlib Axis参数,在多个子图中绘制DataFrame列等)
API Changes¶
- pandas.stats.moments中的指数加权矩函数有一个更一致的API,并接受一个min_periods参数,就像它们的常规移动对等体一样。
- fillMethod参数,DataFrame更改为方法,添加了FutureWarning。
- 填充方法,DataFrame / DataMatrix,WidePanel重命名为fillna,FutureWarning添加到填充
- 将DataFrame.getXS重命名为xs,未来警告已添加
- 从DataFrame中删除了上限和下限功能,重命名为clip_upper和clip_lower
Bug Fixes¶
- 修正IndexableSkiplist Cython代码中打破rolling_max函数的错误
- 许多与numpy.int64相关的索引修复
- 几个NumPy 1.4.0 NaN处理修复
- 修正了pandas.io.parsers.parseCSV的错误
- 修复了使用异常日期偏移的DateRange高速缓存问题
- 修正DateRange.union中的错误
- 在IndexableSkiplist实现中修复了大小写