mahout協同過濾實現_大數據進行kmeans聚類在hadoop2上怎麼實現

A. mahout包括哪些演算法

一、分類演算法

（一）Logistic 回歸（SGD）

（二）Bayesian

（三）SVM

（四）Perceptron 和Winnow

（五）神經網路

（六）隨機森林

（七）受限玻爾茲曼機

（八）Boosting

（九）HMM

（十）Online Passive Aggressive

二、聚類演算法

（一）Canopy

（二）K-Means

（三）Fuzzy K-means

（四）EM

（五）Mean shift

（六）層次聚類

（七）Dirichlet process

（八）LDA

（九）Spectral

（十）MinHash

（十一）Top Down

三、推薦演算法

Mahout包括簡單的非並行的推薦和基於Hadoop的並行推薦的實現。

（一）非並行推薦

（二）分布式的基於Item的協同過濾

（三）並行矩陣分解的協同過濾

四、關聯規則挖掘演算法

並行FP-Growth

五、回歸

Locally Weighted Linear Regression

六、降維

（一）SVD

（二）SSVD

（三）PCA

（四）ICA

（五）GDA

七、進化演算法

八、向量相似性計算

B. 大數據進行kmeans聚類在hadoop2上怎麼實現

k-means聚類不就是初始時抄，襲隨機選取k個中心點，計算與其他點的距離，一次迭代完畢後，計算每個聚類中的中心點（也就是聚類中點的平均值）作為下次迭代的中心點，反復多次迭代直到達到迭代次數上限，或者達到迭代的效果（距離最短）。maprece實現的話就是：map函數計算每個點到中心點的距離，選擇距離每個點最近的中心點，然後輸出鍵值對<中心點，聚類中點的集合>，rece函數計算每個聚類的點的距離均值，並把它作為下次迭代的中心點。反復進行map和rece就是相當於反復迭代。望採納！謝謝！

C. 大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架，主要分為下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。

一、數據採集與預處理

對於各種來源的數據，包括移動互聯網數據、社交網路的數據等，這些結構化和非結構化的海量數據是零散的，也就是所謂的數據孤島，此時的這些數據並沒有什麼意義，數據採集就是將這些數據寫入數據倉庫中，把零散的數據整合在一起，對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候，可以寫個定時的腳本將日誌寫入存儲系統，但隨著數據量的增長，這些方法無法提供數據安全保障，並且運維困難，需要更強壯的解決方案。

Flume NG作為實時日誌收集系統，支持在日誌系統中定製各類數據發送方，用於收集數據，同時，對數據進行簡單處理，並寫到各種數據接收方(比如文本，HDFS，Hbase等)。Flume NG採用的是三層架構：Agent層，Collector層和Store層，每一層均可水平拓展。其中Agent包含Source，Channel和 Sink，source用來消費（收集）數據源到channel組件中，channel作為中間臨時存儲，保存所有source的組件信息，sink從channel中讀取數據，讀取成功之後會刪除channel中的信息。

NDC，Netease Data Canal，直譯為網易數據運河系統，是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗，將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外，NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端數據處理管道，能夠同時從多個來源採集數據、轉換數據，然後將數據發送到您最喜歡的「存儲庫」中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇，可以在同一時間從眾多常用的數據來源捕捉事件，能夠以連續的流式傳輸方式，輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

Sqoop，用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具，可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業（極其容錯的分布式並行計算）來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。

流式計算是行業研究的一個熱點，流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析，可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋，目前大數據流分析工具有很多，比如開源的strom，spark streaming等。

Strom集群結構是有一個主節點（nimbus）和多個工作節點（supervisor）組成的主從結構，主節點通過配置靜態指定或者在運行時動態選舉，nimbus與supervisor都是Storm提供的後台守護進程，之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology（包括topology的發布、任務指派、事件處理時重新指派任務等）。supervisor進程等待nimbus分配任務後生成並監控worker（jvm進程）執行任務。supervisor與worker運行在不同的jvm上，如果由supervisor啟動的某個worker因為錯誤異常退出（或被kill掉），supervisor會嘗試重新生成新的worker進程。

當使用上游模塊的數據進行計算、統計、分析時，就可以使用消息系統，尤其是分布式消息系統。Kafka使用Scala進行編寫，是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心，Kafka可以有許多的生產者和消費者分享多個主題，將消息以topic為單位進行歸納；Kafka發布消息的程序稱為procer，也叫生產者，預訂topics並消費消息的程序稱為consumer，也叫消費者；當Kafka以集群的方式運行時，可以由一個服務或者多個服務組成，每個服務叫做一個broker，運行過程中procer通過網路將消息發送到Kafka集群，集群向消費者提供消息。Kafka通過Zookeeper管理集群配置，選舉leader，以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker，Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作，如果需要將流式數據從Kafka轉移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數據到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那麼對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數據的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監控集群中機器的變化，實現了類似於心跳機制的功能。

二、數據存儲

Hadoop作為一個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。

HBase，是一個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統，部署在hdfs上，克服了hdfs在隨機讀寫這個方面的缺點，與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

Phoenix，相當於一個Java中間件，幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成：一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。

Mesos是一款開源的集群管理軟體，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內存的鍵值對數據持久化到硬碟中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來，Atlas相當於連接它的客戶端，在前端應用看來，Atlas相當於一個DB。Atlas作為服務端與應用程序通訊，它實現了MySQL的客戶端和服務端協議，同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節，同時為了降低MySQL負擔，它還維護了連接池。Atlas啟動後會創建多個線程，其中一個為主線程，其餘為工作線程。主線程負責監聽所有的客戶端連接請求，工作線程只監聽主線程的命令請求。

Ku是圍繞Hadoop生態圈建立的存儲引擎，Ku擁有和Hadoop生態圈共同的設計理念，它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API，同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲，既可以進行隨機讀寫，也可以滿足數據分析的要求。Ku的應用場景很廣泛，比如可以進行實時的數據分析，用於數據可能會存在變化的時序數據應用等。

在數據存儲過程中，涉及到的數據表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項，顯著減少磁碟上的存儲。

三、數據清洗

MapRece作為Hadoop的查詢引擎，用於大規模數據集的並行計算，」Map（映射）」和」Rece（歸約）」，是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統中。

隨著業務數據量的增多，需要進行訓練和清洗的數據會變得越來越復雜，這個時候就需要任務調度系統，比如oozie或者azkaban，對關鍵任務進行調度和監控。

Oozie是用於Hadoop平台的一種工作流調度引擎，提供了RESTful API介面來接受用戶的提交請求(提交工作流作業)，當提交了workflow後，由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業)，然後向Oozie提交Workflow，Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因，用戶程序不必等待作業執行完成（因為有些大作業可能會執行很久(幾個小時甚至幾天)）。Oozie在後台以非同步方式，再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎，可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、認證、調度以及對工作流執行過程中的監控等；Azkaban Executor Server用來調度工作流和任務，記錄工作流或者任務的日誌。

流計算任務的處理平台Sloth，是網易首個自研流計算平台，旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台，其特點是易用、實時、可靠，為用戶節省技術方面（開發、運維）的投入，幫助用戶專注於解決產品本身的流計算需求。

四、數據查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為一張資料庫表，並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據，它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具，將SQL操作轉換為相應的MapRece jobs，然後在hadoop上面運行。Hive支持標準的SQL語法，免去了用戶編寫MapRece程序的過程，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。

Hive是為大數據批量處理而生的，Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece，則會有更多的寫中間結果。由於MapRece執行框架本身的特點，過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中，用戶只需要創建表，導入數據，編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充，可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop，用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據，同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理，而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹，而不是一連串的MapRece任務，相比Hive沒了MapRece啟動時間。

Hive 適合於長時間的批處理查詢分析，而Impala適合於實時互動式SQL查詢，Impala給數據人員提供了快速實驗，驗證想法的大數據分析工具，可以先使用Hive進行數據轉換處理，之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說：Impala把執行計劃表現為一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢，而不用像Hive那樣把它組合成管道型的map->rece模式，以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF，能處理的問題有一定的限制。

Spark擁有Hadoop MapRece所具有的特點，它將Job中間輸出結果保存在內存中，從而不需要讀取HDFS。Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲。

Solr用Java編寫、運行在Servlet容器（如Apache Tomcat或Jetty）的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面，用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜索引擎，基於Lucene的搜索伺服器，可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，比如，Mahout主要目標是創建一些可伸縮的機器學習演算法，供開發人員在Apache的許可下免費使用；深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等，常用的機器學習演算法比如，貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。

五、數據可視化

對接一些BI平台，將分析得到的數據進行可視化，用於指導決策服務。主流的BI平台比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數（可點擊這里免費試用）等。

在上面的每一個階段，保障數據的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos，用來在非安全網路中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網路環境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive，Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置，同時許可權可與hadoop無縫對接。

D. 如何讓Hadoop結合R語言做大數據分析

R語言和Hadoop讓我們體會到了，兩種技術在各自領域的強大。很多開發人員在計算機的角度，都會提出下面2個問題。問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？
問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？下面我嘗試著做一個解答：問題1: Hadoop的家族如此之強大，為什麼還要結合R語言？

a. Hadoop家族的強大之處，在於對大數據的處理，讓原來的不可能（TB,PB數據量計算），成為了可能。
b. R語言的強大之處，在於統計分析，在沒有Hadoop之前，我們對於大數據的處理，要取樣本，假設檢驗，做回歸，長久以來R語言都是統計學家專屬的工具。
c. 從a和b兩點，我們可以看出，hadoop重點是全量數據分析，而R語言重點是樣本數據分析。兩種技術放在一起，剛好是最長補短！
d. 模擬場景：對1PB的新聞網站訪問日誌做分析，預測未來流量變化
d1:用R語言，通過分析少量數據，對業務目標建回歸建模，並定義指標d2:用Hadoop從海量日誌數據中，提取指標數據d3:用R語言模型，對指標數據進行測試和調優d4:用Hadoop分步式演算法，重寫R語言的模型，部署上線這個場景中，R和Hadoop分別都起著非常重要的作用。以計算機開發人員的思路，所有有事情都用Hadoop去做，沒有數據建模和證明，」預測的結果」一定是有問題的。以統計人員的思路，所有的事情都用R去做，以抽樣方式，得到的「預測的結果」也一定是有問題的。所以讓二者結合，是產界業的必然的導向，也是產界業和學術界的交集，同時也為交叉學科的人才提供了無限廣闊的想像空間。問題2: Mahout同樣可以做數據挖掘和機器學習，和R語言的區別是什麼？

a. Mahout是基於Hadoop的數據挖掘和機器學習的演算法框架，Mahout的重點同樣是解決大數據的計算的問題。
b. Mahout目前已支持的演算法包括，協同過濾，推薦演算法，聚類演算法，分類演算法，LDA, 樸素bayes，隨機森林。上面的演算法中，大部分都是距離的演算法，可以通過矩陣分解後，充分利用MapRece的並行計算框架，高效地完成計算任務。
c. Mahout的空白點，還有很多的數據挖掘演算法，很難實現MapRece並行化。Mahout的現有模型，都是通用模型，直接用到的項目中，計算結果只會比隨機結果好一點點。Mahout二次開發，要求有深厚的JAVA和Hadoop的技術基礎，最好兼有「線性代數」，「概率統計」，「演算法導論」等的基礎知識。所以想玩轉Mahout真的不是一件容易的事情。
d. R語言同樣提供了Mahout支持的約大多數演算法(除專有演算法)，並且還支持大量的Mahout不支持的演算法，演算法的增長速度比mahout快N倍。並且開發簡單，參數配置靈活，對小型數據集運算速度非常快。
雖然，Mahout同樣可以做數據挖掘和機器學習，但是和R語言的擅長領域並不重合。集百家之長，在適合的領域選擇合適的技術，才能真正地「保質保量」做軟體。

如何讓Hadoop結合R語言？

從上一節我們看到，Hadoop和R語言是可以互補的，但所介紹的場景都是Hadoop和R語言的分別處理各自的數據。一旦市場有需求，自然會有商家填補這個空白。

1）. RHadoop

RHadoop是一款Hadoop和R語言的結合的產品，由RevolutionAnalytics公司開發，並將代碼開源到github社區上面。RHadoop包含三個R包 (rmr，rhdfs，rhbase)，分別是對應Hadoop系統架構中的，MapRece, HDFS, HBase 三個部分。

2）. RHiveRHive是一款通過R語言直接訪問Hive的工具包，是由NexR一個韓國公司研發的。

3）. 重寫Mahout用R語言重寫Mahout的實現也是一種結合的思路，我也做過相關的嘗試。

4）.Hadoop調用R

上面說的都是R如何調用Hadoop，當然我們也可以反相操作，打通JAVA和R的連接通道，讓Hadoop調用R的函數。但是，這部分還沒有商家做出成形的產品。

5. R和Hadoop在實際中的案例

R和Hadoop的結合，技術門檻還是有點高的。對於一個人來說，不僅要掌握Linux, Java, Hadoop, R的技術，還要具備軟體開發，演算法，概率統計，線性代數，數據可視化，行業背景的一些基本素質。在公司部署這套環境，同樣需要多個部門，多種人才的的配合。Hadoop運維，Hadoop演算法研發，R語言建模，R語言MapRece化，軟體開發，測試等等。所以，這樣的案例並不太多。

E. mahout推薦當uid是uuid（16進制字元串）而不是Long型的處理方式

最近在做使用mahout做協同過濾推薦的時候，發現無論是數據源還是推薦函數的介面user_id必須是Long型的變數

由於業務提供的 user_id 是 uuid ，所以是個字元串類型，並且 item_id （做的是崗位推薦，即為job_id）也是 uuid 類型，於是另外再弄三張表 uid-uuid ， jid-jjid ， uid-jid-score 的映射，但是這樣做實在太麻煩了，我分析用戶日誌存儲用戶偏好表還要再多維護所有用戶和所有崗位表，遂開始研究 uuid 和 uid 能不能做個映射。

首先了解一下 UUID :

重點來了：

我現在需要處理的 uuid 就是這個標準的UUID格式，了解了UUID的構成以後我們就好辦了：

1. 首先將uuid去掉連接符，從原先的uuid格式字元串轉化為沒有連接符的16進制字元串

2. 將16進制字元串轉化為10進制數(內部使用mahout介面)

用BigInt來存儲這個唯一的十進制數，這樣就構成了一種映射。

查了下python的內置uuid庫的API用法：

這里我直接用 python 演示( python3 )

輸出見下圖

寫完的時候google了一下發現牆外面也有不少討論這個的，mahout官方也是說要做轉換，直接用字元串類型進入推薦演算法，效率會特別慢！

如下：
Why user id and item id must be long type ?
how to map uuid to userid in preference class to use mahout recommender
mahout-user mailing list archives：UUID based user IDs

參考：
Python 3.x 格式化輸出字元串 % & format 筆記
python常用的十進制、16進制、字元串、位元組串之間的轉換

F. GitHub上面有哪些經典的java框架源碼

Bazel：來自的構建工具，可以快速、可靠地構建代碼。官網
Gradle：使用Groovy（非XML）進行增量構建，可以很好地與Maven依賴管理配合工作。官網
Buck：Facebook構建工具。官網

位元組碼操作

編程方式操作位元組碼的開發庫。

ASM：通用底層位元組碼操作和分析開發庫。官網
Byte Buddy：使用流式API進一步簡化位元組碼生成。官網
Byteman：在運行時通過DSL（規則）操作位元組碼進行測試和故障排除。官網
Javassist：一個簡化位元組碼編輯嘗試。官網

集群管理

在集群內動態管理應用程序的框架。

Apache Aurora：Apache Aurora是一個Mesos框架，用於長時間運行服務和定時任務（cron job）。官網
Singularity：Singularity是一個Mesos框架，方便部署和操作。它支持Web Service、後台運行、調度作業和一次性任務。官網

代碼分析

測量代碼指標和質量工具。

Checkstyle：代碼編寫規范和標准靜態分析工具。官網
Error Prone：將常見編程錯誤作為運行時錯誤報告。官網
FindBugs：通過位元組碼靜態分析查找隱藏bug。官網
jQAssistant：使用基於Neo4J查詢語言進行代碼靜態分析。官網
PMD：對源代碼分析查找不良的編程習慣。官網
SonarQube：通過插件集成其它分析組件，對過去一段時間內的數據進行統計。官網

編譯器生成工具

用來創建解析器、解釋器或編譯器的框架。

ANTLR：復雜的全功能自頂向下解析框架。官網
JavaCC：JavaCC是更加專門的輕量級工具，易於上手且支持語法超前預測。官網

外部配置工具

支持外部配置的開發庫。

config：針對JVM語言的配置庫。官網
owner：減少冗餘配置屬性。官網

約束滿足問題求解程序

幫助解決約束滿足問題的開發庫。

Choco：可直接使用的約束滿足問題求解程序，使用了約束規劃技術。官網
JaCoP：為FlatZinc語言提供了一個介面，可以執行MiniZinc模型。官網
OptaPlanner：企業規劃與資源調度優化求解程序。官網
Sat4J：邏輯代數與優化問題最先進的求解程序。官網

持續集成

Bamboo：Atlassian解決方案，可以很好地集成Atlassian的其他產品。可以選擇開源許可，也可以購買商業版。官網
CircleCI：提供託管服務，可以免費試用。官網
Codeship：提供託管服務，提供有限的免費模式。官網
fabric8：容器集成平台。官網
Go：ThoughtWork開源解決方案。官網
Jenkins：支持基於伺服器的部署服務。官網
TeamCity：JetBrain的持續集成解決方案，有免費版。官網
Travis：通常用作開源項目的託管服務。官網
Buildkite: 持續集成工具，用簡單的腳本就能設置pipeline，而且能快速構建，可以免費試用。官網

CSV解析

簡化CSV數據讀寫的框架與開發庫

uniVocity-parsers：速度最快功能最全的CSV開發庫之一，同時支持TSV與固定寬度記錄的讀寫。官網

資料庫

簡化資料庫交互的相關工具。

Apache Phoenix：HBase針對低延時應用程序的高性能關系資料庫層。官網
Crate：實現了數據同步、分片、縮放、復制的分布式數據存儲。除此之外還可以使用基於SQL的語法跨集群查詢。官網
Flyway：簡單的資料庫遷移工具。官網
H2：小型SQL資料庫，以可以作為內存資料庫使用著稱。官網
HikariCP：高性能JDBC連接工具。官網
JDBI：便捷的JDBC抽象。官網
Protobuf：Google數據交換格式。官網
SBE：簡單二進制編碼，是最快速的消息格式之一。官網
Wire：整潔輕量級協議緩存。官網

幫實現依賴翻轉範式的開發庫。官網

Apache DeltaSpike：CDI擴展框架。官網
Dagger2：編譯時注入框架，不需要使用反射。官網
Guice：可以匹敵Dagger的輕量級注入框架。官網
HK2：輕量級動態依賴注入框架。官網

開發流程增強工具

從最基本的層面增強開發流程。

ADT4J：針對代數數據類型的JSR-269代碼生成器。官網
AspectJ：面向切面編程（AOP）的無縫擴展。官網
Auto：源代碼生成器集合。官網
DCEVM：通過修改JVM在運行時支持對已載入的類進行無限次重定義。官網
HotswapAgent：支持無限次重定義運行時類與資源。官網
Immutables：類似Scala的條件類。官網
JHipster：基於Spring Boot與AngularJS應用程序的Yeoman源代碼生成器。官網
JRebel：無需重新部署，可以即時重新載入代碼與配置的商業軟體。官網
Lombok：減少冗餘的代碼生成器。官網
Spring Loaded：類重載代理。官網
vert.x：多語言事件驅動應用框架。官網

分布式應用

用來編寫分布式容錯應用的開發庫和框架。

Akka：用來編寫分布式容錯並發事件驅動應用程序的工具和運行時。官網
Apache Storm：實時計算系統。官網
Apache ZooKeeper：針對大型分布式系統的協調服務，支持分布式配置、同步和名稱注冊。官網
Hazelcast：高可擴展內存數據網格。官網
Hystrix：提供延遲和容錯。官網
JGroups：提供可靠的消息傳遞和集群創建的工具。官網
Orbit：支持虛擬角色（Actor），在傳統角色的基礎上增加了另外一層抽象。官網
Quasar：為JVM提供輕量級線程和角色。官網

分布式資料庫

對應用程序而言，在分布式系統中的資料庫看起來就像是只有一個數據源。

Apache Cassandra：列式資料庫，可用性高且沒有單點故障。官網
Apache HBase：針對大數據的Hadoop資料庫。官網
Druid：實時和歷史OLAP數據存儲，在聚集查詢和近似查詢方面表現不俗。官網
Infinispan：針對緩存的高並發鍵值對數據存儲。官網

發布

以本機格式發布應用程序的工具。

Bintray：發布二進制文件版本控制工具。可以於Maven或Gradle一起配合使用。提供開源免費版本和幾種商業收費版本。官網
Central Repository：最大的二進制組件倉庫，面向開源社區提供免費服務。Apache Maven默認使用Central官網Repository，也可以在所有其他構建工具中使用。
IzPack：為跨平台部署建立創作工具（Authoring Tool）。官網
JitPack：打包GitHub倉庫的便捷工具。可根據需要構建Maven、Gradle項目，發布可立即使用的組件。官網
Launch4j：將JAR包裝為輕量級本機Windows可執行程序。官網
Nexus：支持代理和緩存功能的二進制管理工具。官網
packr：將JAR、資源和JVM打包成Windows、Linux和Mac OS X本地發布文件。官網

文檔處理工具

處理Office文檔的開發庫。

Apache POI：支持OOXML規范（XLSX、DOCX、PPTX）以及OLE2規范（XLS、DOC、PPT）。官網
documents4j：使用第三方轉換器進行文檔格式轉換，轉成類似MS Word這樣的格式。官網
jOpenDocument：處理OpenDocument格式（由Sun公司提出基於XML的文檔格式）。官網

函數式編程

函數式編程支持庫。

Cyclops：支持一元（Monad）操作和流操作工具類、comprehension（List語法）、模式匹配、trampoline等特性。官網
Fugue：Guava的函數式編程擴展。官網
Functional Java：實現了多種基礎和高級編程抽象，用來輔助面向組合開發（composition-oriented development）。官網
Javaslang：一個函數式組件庫，提供持久化數據類型和函數式控制結構。官網
jOOλ：旨在填補Java 8 lambda差距的擴展，提供了眾多缺失的類型和一組豐富的順序流API。官網

游戲開發

游戲開發框架。

jMonkeyEngine：現代3D游戲開發引擎。官網
libGDX：全面的跨平台高級框架。官網
LWJGL：對OpenGL/CL/AL等技術進行抽象的健壯框架。官網

GUI

現代圖形化用戶界面開發庫。

JavaFX：Swing的後繼者。官網
Scene Builder：開發JavaFX應用的可視化布局工具。官網

高性能計算

涵蓋了從集合到特定開發庫的高性能計算相關工具。

Agrona：高性能應用中常見的數據結構和工具方法。官網
Disruptor：線程間消息傳遞開發庫。官網
fastutil：快速緊湊的特定類型集合（Collection）。官網
GS Collections：受Smalltalk啟發的集合框架。官網
HPPC：基礎類型集合。官網
Javolution：實時和嵌入式系統的開發庫。官網
JCTools：JDK中缺失的並發工具。官網
Koloboke：Hash set和hash map。官網
Trove：基礎類型集合。官網
High-scale-bli:Cliff Click 個人開發的高性能並發庫官網

IDE

簡化開發的集成開發環境。

Eclipse：老牌開源項目，支持多種插件和編程語言。官網
IntelliJ IDEA：支持眾多JVM語言，是安卓開發者好的選擇。商業版主要針對企業客戶。官網
NetBeans：為多種技術提供集成化支持，包括Java SE、Java EE、資料庫訪問、HTML5
Imgscalr：純Java 2D實現，簡單、高效、支持硬體加速的圖像縮放開發庫。官網
Picasso：安卓圖片下載和圖片緩存開發庫。官網
Thumbnailator：Thumbnailator是一個高質量Java縮略圖開發庫。官網
ZXing：支持多種格式的一維、二維條形碼圖片處理開發庫。官網
im4java: 基於ImageMagick或GraphicsMagick命令行的圖片處理開發庫，基本上ImageMagick能夠支持的圖片格式和處理方式都能夠處理。官網
Apache Batik：在Java應用中程序以SVG格式顯示、生成及處理圖像的工具集，包括SVG解析器、SVG生成器、SVG DOM等模塊，可以集成使用也可以單獨使用，還可以擴展自定義的SVG標簽。官網

JSON

簡化JSON處理的開發庫。

Genson：強大且易於使用的Java到JSON轉換開發庫。官網
Gson：谷歌官方推出的JSON處理庫，支持在對象與JSON之間雙向序列化，性能良好且可以實時調用。官網
Jackson：與GSON類似，在頻繁使用時性能更佳。官網
LoganSquare：基於Jackson流式API，提供對JSON解析和序列化。比GSON與Jackson組合方式效果更好。官網
Fastjson：一個Java語言編寫的高性能功能完善的JSON庫。官網
Kyro：快速、高效、自動化的Java對象序列化和克隆庫。官網

JVM與JDK

目前的JVM和JDK實現。

JDK 9：JDK 9的早期訪問版本。官網
OpenJDK：JDK開源實現。官網

基於JVM的語言

除Java外，可以用來編寫JVM應用程序的編程語言。

Scala：融合了面向對象和函數式編程思想的靜態類型編程語言。官網
Groovy：類型可選（Optionally typed）的動態語言，支持靜態類型和靜態編譯。目前是一個Apache孵化器項目。官網
Clojure：可看做現代版Lisp的動態類型語言。官網
Ceylon：RedHat開發的面向對象靜態類型編程語言。官網
Kotlin：JetBrain針對JVM、安卓和瀏覽器提供的靜態類型編程語言。官網
Xtend：一種靜態編程語言，能夠將其代碼轉換為簡潔高效的Java代碼，並基於JVM運行。官網

日誌

記錄應用程序行為日誌的開發庫。

Apache Log4j 2：使用強大的插件和配置架構進行完全重寫。官網
kibana：分析及可視化日誌文件。官網
Logback：強健的日期開發庫，通過Groovy提供很多有趣的選項。官網
logstash：日誌文件管理工具。官網
Metrics：通過JMX或HTTP發布參數，並且支持存儲到資料庫。官網
SLF4J：日誌抽象層，需要與具體的實現配合使用。官網

機器學習

提供具體統計演算法的工具。其演算法可從數據中學習。

Apache Flink：快速、可靠的大規模數據處理引擎。官網
Apache Hadoop：在商用硬體集群上用來進行大規模數據存儲的開源軟體框架。官網
Apache Mahout：專注協同過濾、聚類和分類的可擴展演算法。官網
Apache Spark：開源數據分析集群計算框架。官網
DeepDive：從非結構化數據建立結構化信息並集成到已有資料庫的工具。官網
Deeplearning4j：分布式多線程深度學習開發庫。官網
H2O：用作大數據統計的分析引擎。官網
Weka：用作數據挖掘的演算法集合，包括從預處理到可視化的各個層次。官網
QuickML：高效機器學習庫。官網、GitHub

消息傳遞

在客戶端之間進行消息傳遞，確保協議獨立性的工具。

Aeron：高效可擴展的單播、多播消息傳遞工具。官網
Apache ActiveMQ：實現JMS的開源消息代理（broker），可將同步通訊轉為非同步通訊。官網
Apache Camel：通過企業級整合模式（Enterprise Integration Pattern EIP）將不同的消息傳輸API整合在一起。官網
Apache Kafka：高吞吐量分布式消息系統。官網
Hermes：快速、可靠的消息代理（Broker），基於Kafka構建。官網
JBoss HornetQ：清晰、准確、模塊化，可以方便嵌入的消息工具。官網
JeroMQ：ZeroMQ的純Java實現。官網
Smack：跨平台XMPP客戶端函數庫。官網
Openfire：是開源的、基於XMPP、採用Java編程語言開發的實時協作伺服器。 Openfire安裝和使用都非常簡單，並可利用Web界面進行管理。官網GitHub
Spark：是一個開源，跨平台IM客戶端。它的特性支持集組聊天，電話集成和強大安全性能。如果企業內部部署IM使用Openfire+Spark是最佳的組合。官網GitHub
Tigase：是一個輕量級的可伸縮的 Jabber/XMPP 伺服器。無需其他第三方庫支持，可以處理非常高的復雜和大量的用戶數，可以根據需要進行水平擴展。官網

雜項

未分類其它資源。

Design Patterns：實現並解釋了最常見的設計模式。官網
Jimfs：內存文件系統。官網
Lanterna：類似curses的簡單console文本GUI函數庫。官網
LightAdmin：可插入式CRUD UI函數庫，可用來快速應用開發。官網
OpenRefine：用來處理混亂數據的工具，包括清理、轉換、使用Web Service進行擴展並將其關聯到資料庫。官網
RoboVM：Java編寫原生iOS應用。官網
Quartz：強大的任務調度庫.官網

應用監控工具

監控生產環境中應用程序的工具。

AppDynamics：性能監測商業工具。官網
JavaMelody：性能監測和分析工具。官網
Kamon：Kamon用來監測在JVM上運行的應用程序。官網
New Relic：性能監測商業工具。官網
SPM：支持對JVM應用程序進行分布式事務追蹤的性能監測商業工具。官網
Takipi：產品運行時錯誤監測及調試商業工具。官網

原生開發庫

用來進行特定平台開發的原生開發庫。

JNA：不使用JNI就可以使用原生開發庫。此外，還為常見系統函數提供了介面。官網

自然語言處理

用來專門處理文本的函數庫。

Apache OpenNLP：處理類似分詞等常見任務的工具。官網
CoreNLP：斯坦佛CoreNLP提供了一組基礎工具，可以處理類似標簽、實體名識別和情感分析這樣的任務。官網
LingPipe：一組可以處理各種任務的工具集，支持POS標簽、情感分析等。官網
Mallet：統計學自然語言處理、文檔分類、聚類、主題建模等。官網

網路

網路編程函數庫。

Async Http Client：非同步HTTP和WebSocket客戶端函數庫。官網
Grizzly：NIO框架，在Glassfish中作為網路層使用。官網
Netty：構建高性能網路應用程序開發框架。官網
OkHttp：一個Android和Java應用的HTTP+SPDY客戶端。官網
Undertow：基於NIO實現了阻塞和非阻塞API的Web伺服器，在WildFly中作為網路層使用。官網

ORM

處理對象持久化的API。

Ebean：支持快速數據訪問和編碼的ORM框架。官網
EclipseLink：支持許多持久化標准，JPA、JAXB、JCA和SDO。官網
Hibernate：廣泛使用、強健的持久化框架。Hibernate的技術社區非常活躍。官網
MyBatis：帶有存儲過程或者SQL語句的耦合對象（Couples object）。官網
OrmLite：輕量級開發包，免除了其它ORM產品中的復雜性和開銷。官網
Nutz：另一個SSH。官網，Github
JFinal：JAVA WEB + ORM框架。官網，Github

PDF

用來幫助創建PDF文件的資源。

Apache FOP：從XSL-FO創建PDF。官網
Apache PDFBox：用來創建和操作PDF的工具集。官網
DynamicReports：JasperReports的精簡版。官網
flyingsaucer：XML/XHTML和CSS 2.1渲染器。官網
iText：一個易於使用的PDF函數庫，用來編程創建PDF文件。注意，用於商業用途時需要許可證。官網
JasperReports：一個復雜的報表引擎。官網

性能分析

性能分析、性能剖析及基準測試工具。

jHiccup：提供平台中JVM暫停的日誌和記錄。官網
JMH：JVM基準測試工具。官網
JProfiler：商業分析器。官網
LatencyUtils：測量和報告延遲的工具。官網
VisualVM：對運行中的應用程序信息提供了可視化界面。官網
YourKit Java Profiler：商業分析器。官網

響應式開發庫

用來開發響應式應用程序的開發庫。

Reactive Streams：非同步流處理標准，支持非阻塞式反向壓力（backpressure）。官網
Reactor：構建響應式快速數據（fast-data）應用程序的開發庫。官網
RxJava：通過JVM可觀察序列（observable sequence）構建非同步和基於事件的程序。官網

REST框架

用來創建RESTful 服務的框架。

Dropwizard：偏向於自己使用的Web框架。用來構建Web應用程序，使用了Jetty、Jackson、Jersey和Metrics。官網
Feign：受Retrofit、JAXRS-2.0和WebSocket啟發的HTTP客戶端連接器（binder）。官網
Jersey：JAX-RS參考實現。官網
RESTEasy：經過JAX-RS規范完全認證的可移植實現。官網
RestExpress：一個Java類型安全的REST客戶端。官網
RestX：基於註解處理和編譯時源碼生成的框架。官網
Retrofit：類型安全的REST客戶端。官網
Spark：受到Sinatra啟發的Java REST框架。官網
Swagger：Swagger是一個規范且完整的框架，提供描述、生產、消費和可視化RESTful Web Service。官網
Blade：國人開發的一個輕量級的MVC框架. 它擁有簡潔的代碼，優雅的設計。官網

科學計算與分析

用於科學計算和分析的函數庫。

DataMelt：用於科學計算、數據分析及數據可視化的開發環境。官網
JGraphT：支持數學圖論對象和演算法的圖形庫。官網
JScience：用來進行科學測量和單位的一組類。官網

搜索引擎

文檔索引引擎，用於搜索和分析。

Apache Solr：一個完全的企業搜索引擎。為高吞吐量通信進行了優化。官網
Elasticsearch：一個分布式、支持多租戶（multitenant）全文本搜索引擎。提供了RESTful Web介面和無schema的JSON文檔。官網
Apache Lucene：是一個開放源代碼的全文檢索引擎工具包，是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎。官網

安全

用於處理安全、認證、授權或會話管理的函數庫。

Apache Shiro：執行認證、授權、加密和會話管理。官網
Bouncy Castle，涵蓋了從基礎的幫助函數到PGP/SMIME操作。官網：多途加密開發庫。支持JCA提供者（JCA provider)
Cryptomator：在雲上進行客戶端跨平台透明加密。官網
Keycloak：為瀏覽器應用和RESTful Web Service集成SSO和IDM。目前還處於beta版本，但是看起來非常有前途。官網
PicketLink：PicketLink是一個針對Java應用進行安全和身份認證管理的大型項目（Umbrella Project）。官網

序列化

用來高效處理序列化的函數庫。

FlatBuffers：高效利用內存的序列化函數庫，無需解包和解析即可高效訪問序列化數據。官網
Kryo：快速、高效的對象圖形序列化框架。官網
FST：提供兼容JDK的高性能對象圖形序列化。官網
MessagePack：一種高效的二進制序列化格式。官網

應用伺服器

用來部署應用程序的伺服器。

Apache Tomcat：針對Servlet和JSP的應用伺服器，健壯性好且適用性強。官網
Apache TomEE：Tomcat加Java EE。官網
Jetty：輕量級、小巧的應用伺服器，通常會嵌入到項目中。官網
WebSphere Liberty：輕量級、模塊化應用伺服器，由IBM開發。官網
WildFly：之前被稱作JBoss，由Red Hat開發。支持很多Java EE功能。官網

模板引擎

在模板中替換表達式的工具。

Apache Velocity：提供HTML頁面模板、email模板和通用開源代碼生成器模板。官網
FreeMarker：通用模板引擎，不需要任何重量級或自己使用的依賴關系。官網
Handlebars.java：使用Java編寫的模板引擎，邏輯簡單，支持語義擴展（semantic Mustache）。官網
Thymeleaf：旨在替換JSP，支持XML文件的工具。官網

測試

測試內容從對象到介面，涵蓋性能測試和基準測試工具。

Apache JMeter：功能性測試和性能評測。官網
Arquillian：集成測試和功能行測試平台，集成Java EE容器。官網
AssertJ：支持流式斷言提高測試的可讀性。官網
Awaitility：用來同步非同步操作的DSL。官網
Cucumber：BDD測試框架。官網
Gatling：設計為易於使用、可維護的和高性能負載測試工具。官網
Hamcrest：可用來靈活創建意圖（intent）表達式的匹配器。官網
JMockit：用來模擬靜態、final方法等。官網
JUnit：通用測試框架。官網
Mockito：在自動化單元測試中創建測試對象，為TDD或BDD提供支持。官網
PowerMock：支持模擬靜態方法、構造函數、final類和方法、私有方法以及移除靜態初始化器的模擬工具。官網
REST Assured：為REST/HTTP服務提供方便測試的Java DSL。官網
Selenide：為Selenium提供精準的周邊API，用來編寫穩定且可讀的UI測試。官網
Selenium：為Web應用程序提供可移植軟體測試框架。官網
Spock：JUnit-compatible framework featuring an expressive Groovy-derived specification language.官網兼容JUnit框架，支持衍生的Groovy范的語言。
TestNG：測試框架。官網
Truth：Google的斷言和命題（proposition）框架。官網
Unitils：模塊化測試函數庫，支持單元測試和集成測試。官網
WireMock：Web Service測試樁（Stub）和模擬函數。官網

通用工具庫

通用工具類函數庫。

Apache Commons：提供各種用途的函數，比如配置、驗證、集合、文件上傳或XML處理等。官網
args4j：命令行參數解析器。官網
CRaSH：為運行進行提供CLI。官網
Gephi：可視化跨平台網路圖形化操作程序。官網
Guava：集合、緩存、支持基本類型、並發函數庫、通用註解、字元串處理、I/O等。官網
JADE：構建、調試多租戶系統的框架和環境。官網
javatuples：正如名字表示的那樣，提供tuple支持。盡管目前tuple的概念還有留有爭議。官網
JCommander：命令行參數解析器。官網
Protégé：提供存在論（ontology）編輯器以及構建知識系統的框架。官網

網路爬蟲

用於分析網站內容的函數庫。

Apache Nutch：可用於生產環境的高度可擴展、可伸縮的網路爬蟲。官網
Crawler4j：簡單的輕量級網路爬蟲。官網
JSoup：刮取、解析、操作和清理HTML。官網

Web框架

用於處理Web應用程序不同層次間通訊的框架。

Apache Tapestry：基於組件的框架，使用Java創建動態、強健的、高度可擴展的Web應用程序。官網
Apache Wicket：基於組件的Web應用框架，與Tapestry類似帶有狀態顯示GUI。官網
Google Web Toolkit：一組Web開發工具集，包含在客戶端將Java代碼轉為JavaScript的編譯器、XML解析器、RCP官網API、JUnit集成、國際化支持和GUI控制項。
Grails：Groovy框架，旨在提供一個高效開發環境，使用約定而非配置、沒有XML並支持混入（mixin）。官網
Ninja：Java全棧Web開發框架。非常穩固、快速和高效。官網
Pippo：小型、高度模塊化的類Sinatra框架。官網
Play：使用約定而非配置，支持代碼熱載入並在瀏覽器中顯示錯誤。官網
PrimeFaces：JSF框架，提供免費和帶支持的商業版本。包括若干前端組件。官網
Ratpack：一組Java開發函數庫，用於構建快速、高效、可擴展且測試完備的HTTP應用程序。官網
Spring Boot：微框架，簡化了Spring新程序的開發過程。官網
Spring：旨在簡化Java EE的開發過程，提供依賴注入相關組件並支持面向切面編程。官網
Vaadin：基於GWT構建的事件驅動框架。使用服務端架構，客戶端使用Ajax。官網
Blade：國人開發的一個輕量級的MVC框架. 它擁有簡潔的代碼，優雅的設計。官網

業務流程管理套件

流程驅動的軟體系統構建。

jBPM：非常靈活的業務流程管理框架，致力於構建開發與業務分析人員之間的橋梁。官網
Activity：輕量級工作流和業務流程管理框架。官網github

資源

社區

導航:首頁 > 凈水問答 > mahout協同過濾實現

mahout協同過濾實現

與mahout協同過濾實現相關的資料