Installation¶
大多数用户安装大熊猫的最简单的方法是将其安装为Anaconda发行版的一部分,这是一个用于数据分析和科学计算的跨平台发行版。这是大多数pandas用户选择的安装方式
此外这里还提供了从源码,PyPI,各种Linux发行版或开发版本安装的说明。
所支持的Python版本¶
官方Python 2.7,3.4,3.5和3.6
安装pandas¶
最简单的使用pandas的方法(无需安装)!¶
最简单开始尝试pandas方式,不需要安装pandas,方式如下
Wakari是一项免费服务,可在云中提供托管的IPython Notebook服务。
只需创建一个帐户,即可在几分钟内通过IPython Notebook在浏览器中访问pandas。
Installing pandas with Anaconda¶
对于没有经验的用户安装Pandas、NumPy和SciPy数据科学分析体系的其余部分可能有点困难。
最简单的方法不仅安装pandas,而且还安装Python和构成SciPy辅助(IPython,NumPy,Matplotlib,...)与用于数据分析和科学计算的跨平台(Linux,Mac OS X,Windows)Python分发版Anaconda。
运行简单的安装程序后,用户将可以访问pandas和SciPy体系的其余部分,而无需安装任何其他内容,无需等待任何软件编译。
作为Anaconda分发一部分的软件包的完整列表可在此处找到。
安装Anaconda的另一个好处是,你不需要管理员权限安装它,它会安装在用户的主目录,这也使得在日后删除Anaconda(只是删除该文件夹)变得简单。
Installing pandas with Miniconda¶
上一节概述了如何将pandas安装为Anaconda分发的一部分。但是这种方法意味着您将安装超过一百个软件包,并涉及下载几百兆字节的安装程序。
如果您想要更多地控制哪些包,或者有限的互联网带宽,则使用Miniconda安装大熊猫可能是更好的解决方案。
Conda是基于Anaconda分发的软件包管理器。它是一个跨平台和语言不可知的包管理器(它可以扮演类似于pip和virtualenv组合的角色)。
Miniconda允许创建最小的自包含Python安装,然后使用Conda命令安装其他软件包。
首先,您需要安装Conda并下载并运行 Miniconda才能为您完成此操作。可在此处找到安装程序
下一步是创建一个新的conda环境(这些类似于virtualenv,但它们也允许您精确指定要安装的Python版本)。从终端窗口运行以下命令:
conda create -n name_of_my_env python
这将创建一个只安装了Python的最小环境。要将你自己放在这个环境中运行:
source activate name_of_my_env
在Windows上,命令是:
activate name_of_my_env
所需的最后一步是安装pandas。可以使用以下命令完成:
conda install pandas
要安装特定的pandas版本:
conda install pandas=0.13.1
要安装其他软件包,例如IPython:
conda install ipython
要安装完整的Anaconda发行版:
conda install anaconda
如果你需要任何可用的pip,但不能conda,只需安装pip,并使用pip安装这些软件包:
conda install pip
pip install django
Installing from PyPI¶
pandas还可以通过pip从PyPI安装。
pip install pandas
这可能需要安装一些依赖项,包括NumPy,将需要一个编译器来编译所需的代码位,并且可能需要几分钟时间才能完成。
Installing using your Linux distribution’s package manager.¶
此表中的命令将从您的分发中安装用于Python 2的pandas。要为Python 3安装pandas,您可能需要使用包python3-pandas
。
分配 | 状态 | 下载/ Repository链接 | 安装方法 |
---|---|---|---|
Debian | 稳定 | 官方Debian存储库 | sudo apt-get 安装 python-pandas |
Debian和Ubuntu | unstable(最新软件包) | NeuroDebian | sudo apt-get 安装 python-pandas |
Ubuntu | 稳定 | 官方Ubuntu存储库 | sudo apt-get 安装 python-pandas |
Ubuntu | 不稳定(每日构建) | PythonXY PPA; activate by:sudo add-apt-repository ppa:pythonxy / pythonxy-devel && > sudo apt-get 更新 |
sudo apt-get 安装 python-pandas |
OpenSuse | 稳定 | OpenSuse存储库 | zypper 在 python-pandas |
Fedora | 稳定 | 官方Fedora存储库 | dnf 安装 python-pandas |
Centos / RHEL | 稳定 | EPEL存储库 | yum 安装 python-pandas |
Installing from source¶
有关从git源代码树构建的完整说明,请参阅contributing documentation。此外,如果您要创建pandas开发环境,请参阅creating a development environment。
Running the test suite¶
pandas配备了一套详尽的单元测试,涵盖了大约97%的代码库。要在您的计算机上运行它以验证一切是否正常(并且已经安装了所有依赖项,软硬件安装),请确保您已经察觉并运行:
>>> import pandas as pd
>>> pd.test()
Running unit tests for pandas
pandas version 0.18.0
numpy version 1.10.2
pandas is installed in pandas
Python version 2.7.11 |Continuum Analytics, Inc.|
(default, Dec 6 2015, 18:57:58) [GCC 4.2.1 (Apple Inc. build 5577)]
nose version 1.3.7
..................................................................S......
........S................................................................
.........................................................................
----------------------------------------------------------------------
Ran 9252 tests in 368.339s
OK (SKIP=117)
Dependencies¶
- setuptools
- NumPy:1.7.1或更高版本
- python-dateutil:1.5或更高
- pytz:需要时区支持
Recommended Dependencies¶
- numexpr:用于加速某些数值操作。
numexpr
使用多个内核以及智能分块和缓存来实现大型加速。如果已安装,则必须为2.1或更高版本(不包括2.4.4版本)。强烈建议使用版本2.4.6或更高版本。 - bottleneck :用于加速某些类型的
nan
评估。bottleneck
使用专用的cython例程来实现大的加速。
注意
强烈建议您安装这些库,因为它们提供大的加速,尤其是使用大型数据集时。
Optional Dependencies¶
Cython:只需要构建开发版本。版本0.19.1或更高版本。
SciPy:其他统计函数
xarray:pandas像处理> 2 dims,需要将面板转换为xarray对象。建议使用0.7.0或更高版本。
PyTables:基于HDF5的存储所必需。强烈建议需要3.0.0或更高版本,3.2.1或更高版本。
SQLAlchemy:用于SQL数据库支持。建议使用0.8.1或更高版本。除了SQLAlchemy,还需要一个数据库特定的驱动程序。您可以在SQLAlchemy docs中找到每种SQL方言的支持的驱动程序的概述。一些常见的驱动程序是:
matplotlib:用于绘图
对于Excel I / O:
- xlrd / xlwt:Excel阅读(xlrd)和书写(xlwt)
- openpyxl:openpyxl版本1.6.1或更高版本(但低于2.0.0)或版本2.2或更高版本,用于写入.xlsx文件(xlrd> = 0.9.0)
- XlsxWriter:备用Excel编写器
Jinja2:用于条件HTML格式化的模板引擎。
boto:对于Amazon S3访问必需的。
blosc:用于使用
blosc
的msgpack压缩PyQt4,PySide,pygtk,xsel或xclip之一:必要使用
read_clipboard()
。Linux发行版上的大多数软件包管理器都会立即提供xclip
和/或xsel
。Google的`python-gflags <<https://github.com/google/python-gflags/>`__,oauth2client,httplib2 和google-api-python-client:需要
gbq
Backports.lzma:仅适用于Python 2,用于在CSV中写入和/或读取xz压缩的DataFrame; Python 3支持内置到标准库中。
需要使用以下库的组合之一来使用顶层
read_html()
函数:- BeautifulSoup4和html5lib(任何最新版本的html5lib都可以。)
- BeautifulSoup4和lxml
- BeautifulSoup4和html5lib和lxml
- 只有lxml,因为您可能需要而不采取这种方法,因此请参阅HTML reading gotchas。
警告
- 如果您安装BeautifulSoup4,则必须安装lxml或html5lib或两者。
read_html()
将不仅处理 BeautifulSoup4。 - 我们非常鼓励您阅读HTML reading gotchas。它解释了关于上述三个库的安装和使用的问题
- 您可能需要安装旧版本的BeautifulSoup4:版本4.2.1,4.1.3和4.0.2已经确认64和32位Ubuntu / Debian
- 此外,如果您使用Anaconda,您应该阅读the gotchas about HTML parsing libraries
注意
如果你使用
apt-get
的系统,你可以这样做sudo apt-get build-dep python-lxml
以获取安装lxml所需的依赖关系。这可以防止下面进程中出现错误。
注意
没有可选的依赖项,许多有用的功能将不工作。因此,强烈建议您安装这些。像Anaconda或Enthought Canopy的打包分发可能值得考虑。