這篇文章中包括的類別,我們認(rèn)為這些類別考慮了通用的數(shù)據(jù)科學(xué)庫,即那些可能被數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)人員用于廣義的,非神經(jīng)網(wǎng)絡(luò)的,非研究性工作的庫:
請注意,以下按類型表示了每個庫,并按星級和貢獻(xiàn)者對其進(jìn)行了繪制,其符號大小反映了該庫在Github上的相對提交次數(shù)。 圖1:用于數(shù)據(jù)科學(xué),數(shù)據(jù)可視化和機器學(xué)習(xí)的頂級Python庫,按星級和貢獻(xiàn)者數(shù)繪制;相對大小按貢獻(xiàn)者數(shù)量 數(shù)據(jù)1. Apache Spark Apache Spark-用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎 2.Pandas Pandas是一個Python軟件包,提供了快速,靈活和可表達(dá)的數(shù)據(jù)結(jié)構(gòu),旨在使使用“關(guān)系”或“標(biāo)記”數(shù)據(jù)既簡單又直觀。它旨在成為在Python中進(jìn)行實用,真實世界數(shù)據(jù)分析的基本高級構(gòu)建塊。 3.Dask 任務(wù)調(diào)度的并行計算 數(shù)學(xué)4. Scipy SciPy發(fā)音為“ Sigh Pie”是用于數(shù)學(xué),科學(xué)和工程的開源軟件。它包括用于統(tǒng)計,優(yōu)化,積分,線性代數(shù),傅立葉變換,信號和圖像處理,ODE求解器等的模塊。 5. Numpy 使用Python進(jìn)行科學(xué)計算的基本軟件包。 機器學(xué)習(xí)6. Scikit-Learn Scikit-learn是一個基于SciPy的Python機器學(xué)習(xí)模塊,并以3條款BSD許可分發(fā)。 7. XGBoost 適用于Python,R,Java,Scala,C ++等的可擴展,便攜式和分布式梯度增強GBDT,GBRT或GBM庫。在單機,Hadoop,Spark,F(xiàn)link和DataFlow上運行 8. LightGBM 基于決策樹算法的快速,分布式,高性能梯度提升GBT,GBDT,GBRT,GBM或MART框架,用于排名,分類和許多其他機器學(xué)習(xí)任務(wù)。 9.Catboost 快速,可擴展,高性能的“決策樹上的梯度提升”庫,用于對Python,R,Java,C ++進(jìn)行排名,分類,回歸和其他機器學(xué)習(xí)任務(wù)。支持在CPU和GPU上進(jìn)行計算。 10. Dlib Dlib是一個現(xiàn)代的C ++工具箱,其中包含機器學(xué)習(xí)算法和工具,這些工具和工具可以用C ++創(chuàng)建復(fù)雜的軟件來解決實際問題??梢酝ㄟ^dlib API與Python一起使用 11.Annoy C ++ / Python中的近似最近鄰居已針對內(nèi)存使用情況以及加載/保存到磁盤進(jìn)行了優(yōu)化 12.H20ai 適用于更智能應(yīng)用的開源快速可擴展機器學(xué)習(xí)平臺:深度學(xué)習(xí),梯度提升和XGBoost,隨機森林,廣義線性建模邏輯回歸,彈性網(wǎng),K均值,PCA,堆疊集成,自動機器學(xué)習(xí)AutoML等。 13. StatsModels Statsmodels:Python中的統(tǒng)計建模和計量經(jīng)濟學(xué) 14. mlpack mlpack是一個直觀,快速且靈活的C ++機器學(xué)習(xí)庫,具有與其他語言的綁定 15.Pattern 用于Python的Web挖掘模塊,具有用于抓取,自然語言處理,機器學(xué)習(xí),網(wǎng)絡(luò)分析和可視化的工具。 16.Prophet 用于為具有多個季節(jié)性且線性或非線性增長的時間序列數(shù)據(jù)生成高質(zhì)量預(yù)測的工具。 自動化機器學(xué)習(xí)17. TPOT 一個Python自動化機器學(xué)習(xí)工具,可使用遺傳編程來優(yōu)化機器學(xué)習(xí)pipeline。 18. auto-sklearnhttps://github.com/automl/auto-sklearn auto-sklearn是一種自動化的機器學(xué)習(xí)工具包,是scikit-learn估計器的直接替代品。 19. Hyperopt-sklearn Hyperopt-sklearn是scikit-learn中機器學(xué)習(xí)算法中基于Hyperopt的模型選擇。 20. SMAC-3 基于順序模型的算法配置 21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize Scikit-Optimize或skopt是一個簡單高效的庫,可最大限度地減少非常昂貴且嘈雜的黑盒功能。它實現(xiàn)了幾種基于順序模型優(yōu)化的方法。 22. Nevergrad 用于執(zhí)行無梯度優(yōu)化的Python工具箱 23.Optuna Optuna是一個自動超參數(shù)優(yōu)化軟件框架,專門為機器學(xué)習(xí)而設(shè)計。 數(shù)據(jù)可視化24. Apache Superset Apache Superset是一個數(shù)據(jù)可視化和數(shù)據(jù)探索平臺 25. Matplotlib Matplotlib是一個綜合庫,用于在Python中創(chuàng)建靜態(tài),動畫和交互式可視化。 26.Plotly Plotly.py是適用于Python的交互式,基于開源和基于瀏覽器的圖形庫 27. Seaborn Seaborn是基于matplotlib的Python可視化庫。它提供了用于繪制吸引人的統(tǒng)計圖形的高級界面。 28.folium Folium建立在Python生態(tài)系統(tǒng)的數(shù)據(jù)處理能力和Leaflet.js庫的映射能力之上。用Python處理數(shù)據(jù),然后通過folium在可視化的Leaflet貼圖中顯示。 29. Bqplot Bqplot是Jupyter的二維可視化系統(tǒng),基于圖形語法的構(gòu)造。 30. VisPy VisPy是一個高性能的交互式2D / 3D數(shù)據(jù)可視化庫。VisPy通過OpenGL庫利用現(xiàn)代圖形處理單元GPU的計算能力來顯示非常大的數(shù)據(jù)集。 31. PyQtgraph 用于科學(xué)/工程應(yīng)用的快速數(shù)據(jù)可視化和GUI工具 32.Bokeh Bokeh是用于現(xiàn)代Web瀏覽器的交互式可視化庫。它提供通用圖形的優(yōu)雅,簡潔的構(gòu)造,并在大型或流數(shù)據(jù)集上提供高性能的交互性。 33.Altair Altair是用于Python的聲明性統(tǒng)計可視化庫。使用Altair,您可以花費更多時間來理解數(shù)據(jù)及其含義。 解釋與探索34. eli5https://github.com/TeamHG-Memex/eli5 一個用于調(diào)試/檢查機器學(xué)習(xí)分類器并解釋其預(yù)測的庫 35. LIMEh Lime:解釋任何機器學(xué)習(xí)分類器的預(yù)測 36. SHAP 一種博弈論方法,用于解釋任何機器學(xué)習(xí)模型的輸出。 37. YellowBrick 可視化分析和診斷工具,有助于機器學(xué)習(xí)模型的選擇。 38.pandas-profiling 從pandas DataFrame對象創(chuàng)建HTML分析報告 作者:Python在線社區(qū); |
|