pandas Ecosystem¶
越来越多的软件包在大熊猫上构建,以满足数据准备,分析和可视化的特定需求。这是令人鼓舞的,因为它意味着熊猫不仅帮助用户处理他们的数据任务,而且它为开发者提供了一个更好的起点,构建强大和更集中的数据工具。创建补充熊猫功能的图书馆也允许熊猫开发继续专注于它的原始要求。
我们希望让用户更容易找到这些项目,如果您知道您认为应该在此列表中的其他实质性项目,请告诉我们。
Statistics and Machine Learning¶
Statsmodels¶
Statsmodels是着名的python“统计和计量经济学图书馆”,它与熊猫有着长期的特殊关系。Statsmodels提供强大的统计,计量经济学,分析和建模功能,超出了熊猫的范围。Statsmodels利用pandas对象作为计算的基础数据容器。
sklearn-pandas¶
在scikit-learn ML管道中使用pandas DataFrames。
Visualization¶
Bokeh¶
Bokeh是一个用于大型数据集的Python交互式可视化库,本地使用最新的Web技术。其目标是以Protovis / D3的风格提供优雅,简洁的新颖图形构造,同时为大型数据向瘦客户端提供高性能交互性。
yhat/ggplot¶
Hadley Wickham的ggplot2是R语言的基础探索性可视化包。基于“图形语法”它提供了一个强大的,声明性和极其一般的方式来生成任何类型的数据的定制图。这真的很不可思议。各种实现到其他语言是可用的,但一个忠实的实现python用户长期以来一直缺失。虽然仍然年轻(截至2014年1月),yhat / ggplot项目已经在这个方向上迅速发展。
Seaborn¶
虽然熊猫有相当多的“只是绘图”的功能内置,可视化,特别是统计图形是一个广泛的领域,具有悠久的传统和大量的地面覆盖。Seaborn项目构建在pandas和matplotlib之上,以便于绘制更多高级类型的数据,然后提供由pandas提供的数据。
IPython Vega¶
像Vincent一样,IPython Vega项目利用Vega创建图,但主要针对IPython Notebook环境。
Plotly¶
Plotly的 Python API可提供互动数字和网页分享功能。使用WebGL和D3.js来呈现地图,2D,3D和实况流图。该库支持直接从pandas DataFrame和基于云的协作绘制。matplotlib,ggplot for Python和Seaborn的用户可以将图形转换为基于Web的互动图。绘图可以在IPython笔记本中绘制,使用R或MATLAB编辑,在GUI中修改,或嵌入在应用程序和仪表板中。Plotly可免费无限制分享,且拥有云,离线或内部帐户供私人使用。
IDE¶
IPython¶
IPython是一个交互式命令shell和分布式计算环境。IPython Notebook是一个用于创建IPython笔记本的Web应用程序。IPython notebook是一个JSON文档,包含输入/输出单元格的有序列表,其中可以包含代码,文本,数学,图表和富媒体。IPython Notebook可以通过Web界面中的“下载为”和ipython t1转换为多种开放标准输出格式(HTML,HTML演示文稿幻灯片,LaTeX,PDF,ReStructuredText,Markdown, > nbconvert
。
Pandas DataFrames实现了IPython Notebook用于显示(缩写)HTML表的_repr_html_
方法。(注意:HTML表格可能与非HTML IPython输出格式兼容,也可能不兼容)。
quantopian/qgrid¶
qgrid是“用于排序和过滤IPython Notebook中的DataFrames的交互式网格”,使用SlickGrid构建。
API¶
pandas-datareader¶
pandas-datareader
是用于pandas的远程数据访问库。pandas.io
from pandas < 0.17.0 is now refactored/split-off to and importable from pandas_datareader
(PyPI:pandas-datareader
). 许多/大多数支持的API在pandas-datareader docs中至少有一个文档段落:
以下数据Feed可用:
- 雅虎金融
- Google财经
- FRED
- Fama /法语
- 世界银行
- 经合组织
- 欧洲统计局
- EDGAR索引
quandl/Python¶
Quandl API for Python包装Quandl REST API以返回带有时间序列索引的Pandas DataFrames。
pydatastream¶
PyDatastream是Thomson Dataworks Enterprise(DWE / Datastream) SOAP API的Python接口,用于返回带有财务数据的带索引的Pandas DataFrames或面板。此程序包需要此API的有效凭据(非免费)。
pandaSDMX¶
pandaSDMX是一个可扩展的库,用于检索和获取在SDMX 2.1中传播的统计数据和元数据。本标准目前由欧洲统计局(欧盟统计局)和欧洲中央银行(欧洲中央银行)支持。数据集可以作为pandas系列或多索引的DataFrames返回。
fredapi¶
fredapi是由圣路易斯联邦储备银行提供的联邦储备经济数据(FRED)的Python接口。它与包含时间点数据(即历史数据修订)的FRED数据库和ALFRED数据库一起工作。fredapi在python中为FRED HTTP API提供了一个包装器,并且还提供了几种方便的方法来解析和分析来自ALFRED的时间点数据。fredapi使用pandas并返回一个Series或DataFrame中的数据。此模块需要FRED API密钥,您可以在FRED网站上免费获取。