本文原題:《大數(shù)據(jù)時(shí)代背景教育企業(yè)的精準(zhǔn)化和個(gè)性化管理及服務(wù)實(shí)踐》,以教育行業(yè)項(xiàng)目的建設(shè)為例,介紹了如何通過數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務(wù)的全方位大數(shù)據(jù)管理,為每個(gè)學(xué)生進(jìn)行精準(zhǔn)畫像,從而實(shí)現(xiàn)精準(zhǔn)化個(gè)性化服務(wù)、前置性預(yù)警引導(dǎo)服務(wù)等,為領(lǐng)導(dǎo)提供數(shù)據(jù)支持和決策參考,最終實(shí)現(xiàn)管理提升。該分享值得各個(gè)行業(yè)企業(yè)參考。 1 項(xiàng)目概述1.1 項(xiàng)目背景隨著時(shí)代的不斷進(jìn)步,科技的迅速發(fā)展,當(dāng)前人們的生活已經(jīng)發(fā)生了巨大的改變,越來越多的科學(xué)技術(shù)成果出現(xiàn)在人們的生活當(dāng)中,給人們的生活、學(xué)習(xí)、還有工作都帶來了極大的便捷。現(xiàn)在人們的生活模式已經(jīng)發(fā)生了翻天覆地的改變,為了不斷的適應(yīng)社會(huì)的具體狀況,人們也在不斷的對自身做出相應(yīng)的調(diào)整,這樣的狀況在我國的高校中也是如此。 當(dāng)前的社會(huì)被人們稱為大數(shù)據(jù)時(shí)代,在這樣的時(shí)代當(dāng)中大數(shù)據(jù)為人們更好的認(rèn)識這個(gè)世界提供了幫助,同時(shí)也為改變這個(gè)世界提供了全新的方法與技術(shù)體系。對于高校來說,是一個(gè)知識最密集、網(wǎng)絡(luò)信息技術(shù)運(yùn)用充分、思想最活躍的前沿征地,為此我們要對高校的發(fā)展給予高度的重視。 大數(shù)據(jù)時(shí)代已經(jīng)來臨,教育行業(yè)作為社會(huì)大眾共享的無形財(cái)富,其開放己成為數(shù)據(jù)整合和共享應(yīng)用的前提條件?!笆?期間有望形成和諧健康的行業(yè)生態(tài)?;A(chǔ)設(shè)施提供商、大數(shù)據(jù)服務(wù)商、數(shù)據(jù)挖掘與分析提供商、數(shù)據(jù)應(yīng)用服務(wù)提供商、數(shù)據(jù)安全提供商、教育行政部門以及教育大數(shù)據(jù)標(biāo)準(zhǔn)研制單位等諸多角色通過合理分工、有效協(xié)同,推進(jìn)高校大數(shù)據(jù)的持續(xù)有序發(fā)展。 數(shù)字化校園歷經(jīng)建設(shè)多年,沉淀在數(shù)字化校園系統(tǒng)中的數(shù)據(jù)未釋放數(shù)據(jù)的價(jià)值來指導(dǎo)高校進(jìn)行科學(xué)決策與科學(xué)管理。所以,數(shù)據(jù)建設(shè)勢必要提上高校信息化建設(shè)日程。高校信息化已數(shù)據(jù)作為切入點(diǎn)進(jìn)行整體規(guī)劃。高校信息化在高校建設(shè)中,已經(jīng)從網(wǎng)絡(luò)化到數(shù)字化,從數(shù)字化到智慧化演進(jìn),作為智慧化最突出的標(biāo)志之一,數(shù)據(jù)化已經(jīng)成為高校智慧校園建設(shè)的任務(wù)。如何利用數(shù)據(jù)的采集,分析,計(jì)算,挖掘來支撐高校的信息化戰(zhàn)略已成為未來戰(zhàn)略的必然趨勢。 1.2 需求分析隨著當(dāng)今時(shí)代的不斷發(fā)展,人們逐漸發(fā)現(xiàn)以往傳統(tǒng)的高校學(xué)生工作管理模式已經(jīng)不能夠滿足人們具體的生活需要,高校要想發(fā)展的更好,要想給學(xué)生們提供一個(gè)良好的教育環(huán)境,那么一定要對自身的管理模式機(jī)型進(jìn)行改變,因?yàn)橹挥羞@樣高校才能夠長期穩(wěn)定的發(fā)展下去。現(xiàn)在的高校在對自身的管理模式進(jìn)行改變的時(shí)候,深受社會(huì)大數(shù)據(jù)時(shí)代背景的影響,同時(shí)這也是高校自身在進(jìn)行改進(jìn)的時(shí)候必須參考的一個(gè)數(shù)據(jù)。 教育管理體制改革需求 在我國教育管理體制的不斷改革與發(fā)展中,各大高校的招生規(guī)模越來越大,所設(shè)立的專業(yè)也越來越多,相對于高校招生量來說,其管理人員的數(shù)量卻沒有增加,更沒有信息化管理意識。雖然一些高校也為學(xué)校擴(kuò)招工作作了一系列的準(zhǔn)備工作,加大了高校輔導(dǎo)員等等的管理隊(duì)伍建設(shè),但管理人員的增長水平遠(yuǎn)遠(yuǎn)達(dá)不到高校學(xué)生管理工作的需求,以至于使很多管理人員一身兼多職,這樣不僅不能夠保證高校的教學(xué)質(zhì)量,而且還使學(xué)生的管理工作難以以達(dá)到理想狀態(tài),這些都是制約高校健康發(fā)展的重要因素。 大數(shù)據(jù)時(shí)代里,高校學(xué)生管理工作難度加大 21世紀(jì)是信息化的世紀(jì)、是網(wǎng)絡(luò)化的世紀(jì),大數(shù)據(jù)時(shí)代的到來不僅給高校的學(xué)生管理工作帶來了很大的便利性,同時(shí)也讓其面臨著巨大的壓力的挑戰(zhàn),使學(xué)校管理工作的難度越來越大,這就要求高校學(xué)生管理的模式能夠與時(shí)俱進(jìn),這樣才能夠掌握學(xué)生們的思想變化,適應(yīng)學(xué)生們的生活方式。 學(xué)生管理精準(zhǔn)化需求 大數(shù)據(jù)時(shí)代對高校學(xué)生的管理工作有非常巨大的幫助,高校為了更好的適應(yīng)時(shí)代的發(fā)展,對自身學(xué)生工作的管理模式已經(jīng)做出了巨大的改變。在當(dāng)今的社會(huì)當(dāng)中隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)的最初狀態(tài)已經(jīng)發(fā)生了翻天覆地的變化,高校已經(jīng)不再運(yùn)用以往傳統(tǒng)的管理模式來進(jìn)行學(xué)生的管理工作,而是在學(xué)生的管理工作中加入了當(dāng)今先進(jìn)的科學(xué)技術(shù)手段,目前高校已經(jīng)把社交網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)信息技術(shù)、電子商務(wù)技術(shù)、互聯(lián)網(wǎng)技術(shù)等應(yīng)用到自身的學(xué)生管理工作當(dāng)中,這些先進(jìn)技術(shù)的引進(jìn)大大的提高了高校學(xué)生管理工作的工作效率。 學(xué)生管理工作模式變革需求 隨著社會(huì)的發(fā)展和高等教育的深刻變革,學(xué)生工作的理念和方法也悄然發(fā)生著變化,從最早的20世紀(jì)八十年代較為單一的傳統(tǒng)工作模式到“以學(xué)生為中心”“以學(xué)習(xí)為中心”的注重學(xué)生成長發(fā)展的學(xué)生工作模式,學(xué)生工作理念正逐步實(shí)現(xiàn)從管理到管理服務(wù)并重到服務(wù)的轉(zhuǎn)變。今天,學(xué)生工作面臨的對象是一個(gè)在移動(dòng)互聯(lián)網(wǎng)時(shí)代成長起來的群體,網(wǎng)絡(luò)已經(jīng)成為他們生活的一部分,如網(wǎng)絡(luò)閱讀、網(wǎng)絡(luò)學(xué)習(xí)、網(wǎng)絡(luò)購物、網(wǎng)絡(luò)娛樂等,他們已經(jīng)成為網(wǎng)絡(luò)文化形成參與的主體,且呈現(xiàn)出個(gè)性化發(fā)展的特征。面對這樣一個(gè)青年大學(xué)生群體,靠傳統(tǒng)的隨機(jī)抽樣或經(jīng)驗(yàn)去了解他們的工作模式已失去了優(yōu)勢,一種新的依托大數(shù)據(jù)技術(shù)開展學(xué)生工作的模式應(yīng)運(yùn)而生。 1.3 建設(shè)目標(biāo)在大數(shù)據(jù)時(shí)代,教育政策的制定不再是簡單的經(jīng)驗(yàn)?zāi)7?更不是政策制定者以自己有限的理解、假想、推測來取代全面的調(diào)查、論證和科學(xué)的判斷,而是強(qiáng)調(diào)更精細(xì)化地捕捉各個(gè)層面的變化數(shù)據(jù),以及由數(shù)據(jù)展現(xiàn)的復(fù)雜相關(guān)與因果 關(guān)系,將教育治理與政策決策帶來的危機(jī)化為機(jī)遇。 在管理決策方面 , 學(xué)工大數(shù)據(jù)不論是在幫助決策者更為清晰地了解現(xiàn)狀,及時(shí)掌握更為全面、更有價(jià)值的信息方面,還是在制定、實(shí)施、調(diào)整具體的學(xué)生管理政策過程中,都具有舉足輕重的作用。 本項(xiàng)目的建設(shè)將對重點(diǎn)圍繞學(xué)生管理工作需求,采集學(xué)生在學(xué)校期間的學(xué)習(xí)、生活、作息、消費(fèi)、運(yùn)動(dòng)、圖書借閱等多位維度的數(shù)據(jù),包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務(wù)的全方位大數(shù)據(jù)管理平為每個(gè)學(xué)生進(jìn)行精準(zhǔn)畫像,這樣讓學(xué)生管理這對管理對象能夠深入的了解,便于為每個(gè)學(xué)生提供精準(zhǔn)化和個(gè)性化的服務(wù),同時(shí)實(shí)現(xiàn)之前從后置性應(yīng)急管理轉(zhuǎn)變?yōu)榍爸眯灶A(yù)警引導(dǎo)等服務(wù),促進(jìn)教學(xué)管理改革,提高對學(xué)校整體狀況的把控,為領(lǐng)導(dǎo)提供數(shù)據(jù)支持和決策參考。 實(shí)現(xiàn)精細(xì)化管理到精準(zhǔn)化服務(wù)的模式轉(zhuǎn)變,學(xué)生工作事無巨細(xì),涉及學(xué)生成長的方方面面,在大數(shù)據(jù)時(shí)代,在工作模式和方法上,會(huì)對學(xué)生工作進(jìn)行管理上的變革,運(yùn)用大數(shù)據(jù)技術(shù)將學(xué)生工作從精細(xì)化管理轉(zhuǎn)向精準(zhǔn)化服務(wù)。學(xué)生工作精準(zhǔn)化服務(wù)主要體現(xiàn)在兩方面:一是學(xué)生工作者要掌握學(xué)生精準(zhǔn)特征。青年大學(xué)生,作為年輕的成人,他們思維活躍、個(gè)性獨(dú)立,呈現(xiàn)出思想多元化、需求多樣化的特征,再加上大學(xué)生面臨著前所未有的全球化、國際化、互聯(lián)互通、復(fù)雜多變的社會(huì)環(huán)境,大學(xué)生的學(xué)習(xí)行為、生活習(xí)慣、思維模式、價(jià)值觀念都發(fā)生了深刻的變化,成長過程中也會(huì)碰到諸多現(xiàn)實(shí)困惑,這就要求學(xué)生工作者利用大數(shù)據(jù)的技術(shù)全面精準(zhǔn)地了解學(xué)生的特點(diǎn)和需求。二是為學(xué)生提供私人定制的成長服務(wù)。每個(gè)學(xué)生都是獨(dú)立個(gè)體,因其教育背景、生源地、家庭狀況等的差異性,會(huì)導(dǎo)致不同個(gè)體或群體的需求,采用團(tuán)體輔導(dǎo)、個(gè)體輔導(dǎo)、朋輩輔導(dǎo)等方式為學(xué)生提供精準(zhǔn)化服務(wù)。當(dāng)然,學(xué)生工作者重在“輔”和“導(dǎo)”,要得到學(xué)生的配合和支持,需要他們主動(dòng)提供自己的各類數(shù)據(jù),與學(xué)生工作者一起診斷,認(rèn)知自己,進(jìn)而實(shí)現(xiàn)自我管理、自我成長。 學(xué)工大數(shù)據(jù)作為高校的大數(shù)據(jù)服務(wù)平臺(tái)和高校智慧校園的一個(gè)子集,將為未來的高校大數(shù)據(jù)服務(wù)平臺(tái)和智慧校園提供豐富的數(shù)據(jù)源和基礎(chǔ)。 2 建設(shè)方案2.1 總體架構(gòu)2.1.1 數(shù)據(jù)采集和清洗數(shù)據(jù)源:包括的高校的業(yè)務(wù)系統(tǒng)(學(xué)工、人事、財(cái)務(wù)、教務(wù)、一卡通、科研、后勤、公寓、)等結(jié)構(gòu)化數(shù)據(jù)、硬件的設(shè)備數(shù)據(jù)(防火墻設(shè)備的日志、上網(wǎng)行為審計(jì)的學(xué)生上網(wǎng)相關(guān)數(shù)據(jù)、以及音視頻、無線WIFI)等非結(jié)構(gòu)化數(shù)據(jù)、互聯(lián)網(wǎng)的數(shù)據(jù)(智聯(lián)、前程無憂等招聘網(wǎng)站的崗位招聘信息)半結(jié)構(gòu)化數(shù)據(jù)。 學(xué)生業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)研情況表 數(shù)據(jù)采集層: 1、 針對結(jié)構(gòu)化數(shù)據(jù),采用業(yè)界穩(wěn)定成熟的Sqoop工具。Sqoop是一款強(qiáng)大的開源的工具,主要用于在Hive、Hbase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞??梢詫⒁粋€(gè)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中,在項(xiàng)目實(shí)施過程中使用頻率最高; 2、 針對非結(jié)構(gòu)化數(shù)據(jù),采用業(yè)務(wù)穩(wěn)定成熟的Flume(一個(gè)分布式、高可靠和高可用的海量日志聚合系統(tǒng),支持從各類數(shù)據(jù)發(fā)送方采集數(shù)據(jù),同時(shí)也提供對數(shù)據(jù)的簡單處理里能,并可以將處理后的數(shù)據(jù)定制化地寫入各種數(shù)據(jù)接收方) kafka(是一個(gè)分布式的、可分區(qū)的、多副本的實(shí)時(shí)消息發(fā)布和訂閱系統(tǒng),提供可擴(kuò)展、高吞吐、低延遲、高可靠的消息分發(fā)服務(wù)),這個(gè)主要實(shí)現(xiàn)對智能設(shè)備和軟件系統(tǒng)產(chǎn)生的日志信息這類型數(shù)據(jù),另外針對各種文件類型的數(shù)據(jù),例如word文檔、視頻、圖片等等。采用http、ftp等協(xié)議,這類數(shù)據(jù)采集完成后直接將數(shù)據(jù)存儲(chǔ)到HDFS中。 3、 針對半結(jié)構(gòu)化數(shù)據(jù),主要使用采用爬蟲系統(tǒng)、kafka消息隊(duì)列系統(tǒng)、spark數(shù)據(jù)解析和HDFS數(shù)據(jù)存儲(chǔ)(可以選擇使用Elasticsearch)來配合完成。 數(shù)據(jù)預(yù)處理:采集到大數(shù)據(jù)平臺(tái)的數(shù)據(jù)由于原有系統(tǒng)設(shè)計(jì)約束不健全或是業(yè)務(wù)人員錄入等原因造成數(shù)據(jù)可能存在缺失、噪聲、重復(fù)、錯(cuò)誤等問題,需要對于存儲(chǔ)到平臺(tái)中數(shù)據(jù)需要做預(yù)處理(清洗、集成(數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲(chǔ)中的過程)),這部分工作需要業(yè)務(wù)部門的人員配合梳理,同時(shí)還需要對之前分散的數(shù)據(jù)按照前端應(yīng)用分析集成面向主題數(shù)據(jù),建立針對應(yīng)用的主題數(shù)據(jù)庫(采用MYSQL的分布式架構(gòu)MYCAT部署和存儲(chǔ)數(shù)據(jù))。 1、 對于缺失值:采用人工填寫替換(將缺失的屬性值用同一個(gè)常量替換)、邏輯補(bǔ)值(例如根據(jù)身份證號識別出生年月日、出生地等信息)、業(yè)務(wù)系統(tǒng)填寫(從其他業(yè)務(wù)系統(tǒng)中找出響應(yīng)的數(shù)值)、以業(yè)務(wù)知識或經(jīng)驗(yàn)推測、重新提?。ㄈ绻承┲笜?biāo)非常重要又缺失率高、那就需要和業(yè)務(wù)人員了解和溝通,是否通過其他渠道可以取到相關(guān)數(shù)據(jù))、放棄(對于缺失維度較大的數(shù)據(jù),采取放棄的做法); 2、 重復(fù)數(shù)據(jù):采用時(shí)間(數(shù)據(jù)錄入的時(shí)間先后順序取舍)、人工刪除、業(yè)務(wù)邏輯去重; 3、 錯(cuò)誤數(shù)據(jù):不合理值修正(例如學(xué)生的年齡200歲、學(xué)生的成績異常1000分,必須指定在某個(gè)區(qū)間內(nèi))、格式錯(cuò)誤修正(包括時(shí)間、日期、數(shù)值、全半角等顯示格式不一致,指定統(tǒng)一的格式進(jìn)行轉(zhuǎn)換)、前后文矛盾修正(例如學(xué)生的身份證號是1101031980XXXXXXXX,然后年齡填18歲)、人工修正。 數(shù)據(jù)標(biāo)準(zhǔn):為確保實(shí)現(xiàn)高校數(shù)據(jù)的集成和共享和實(shí)現(xiàn)校本數(shù)據(jù)的積累,重點(diǎn)參照教育部出臺(tái)的《高等學(xué)校管理信息標(biāo)準(zhǔn)》“學(xué)生管理數(shù)據(jù)子集”中的規(guī)范,結(jié)合學(xué)校實(shí)際情況,建立大學(xué)生基礎(chǔ)信息編碼規(guī)范和數(shù)據(jù)子集規(guī)范,統(tǒng)一學(xué)生編碼,確保學(xué)生的編碼唯一;統(tǒng)一部門編碼,保證部門編碼的唯一;統(tǒng)一所有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)編碼,保證業(yè)務(wù)數(shù)據(jù)的準(zhǔn)確;同時(shí)制訂編碼和數(shù)據(jù)的管理、更新、維護(hù)規(guī)范。 數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量監(jiān)控實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的自動(dòng)檢查、監(jiān)控、報(bào)告等功能,包括數(shù)據(jù)質(zhì)量檢查規(guī)則庫(包括唯一性、重復(fù)性、及時(shí)性、完整性、準(zhǔn)確性、規(guī)范性、一致性等維度)、規(guī)則執(zhí)行引擎(按照指定好的規(guī)則按時(shí)執(zhí)行,例如每天、時(shí)間0:00-06:00)、數(shù)據(jù)質(zhì)量報(bào)告(對于檢查出的問題及時(shí)提交給用戶業(yè)務(wù)部門)、報(bào)告推送等功能。核心是規(guī)則庫,與業(yè)務(wù)無關(guān)的規(guī)則由技術(shù)人員獨(dú)立開發(fā),與業(yè)務(wù)相關(guān)的規(guī)則需要技術(shù)人員和業(yè)務(wù)人員共同確定檢查規(guī)則,然后編寫規(guī)則腳本。規(guī)則執(zhí)行引擎可以定時(shí)批量執(zhí)行檢查規(guī)則,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,將數(shù)據(jù)質(zhì)量報(bào)告第一時(shí)間推送給業(yè)務(wù)部門和指定相關(guān)人員,便于及時(shí)糾正問題數(shù)據(jù)。 數(shù)據(jù)質(zhì)量報(bào)告 2.1.2 數(shù)據(jù)存儲(chǔ)和檢索數(shù)據(jù)存儲(chǔ):對于采集到平臺(tái)內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ), 1、 結(jié)構(gòu)化數(shù)據(jù):對于從傳統(tǒng)關(guān)系數(shù)據(jù)庫(mysql、Oracle等)采集過來的結(jié)構(gòu)化數(shù)據(jù)則存放在Hive(建立在Hadoop基礎(chǔ)上的開源數(shù)據(jù)倉庫,提供類似SQL的HQL(Hive Query Language)語言對存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢和分析操作)庫中; 2、 非結(jié)構(gòu)化數(shù)據(jù)(音視頻、圖片、Word這類型的文件類型的數(shù)據(jù))存放在HDFS(Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System),提供高吞吐量的數(shù)據(jù)訪問能力,適合用于大規(guī)模海量數(shù)據(jù)的存儲(chǔ))中; 3、 半結(jié)構(gòu)化數(shù)據(jù)(設(shè)備的日志、WIFI、一卡通流水)則存放在HBase(是一種構(gòu)建在HDFS之上的分布式、面向列的存儲(chǔ)系統(tǒng),提供海量數(shù)據(jù)存儲(chǔ)功能,適合實(shí)時(shí)讀寫、隨機(jī)訪問超大規(guī)模數(shù)據(jù)集的應(yīng)用場景)中。 數(shù)據(jù)檢索:面對結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)檢索,將使用Impala標(biāo)準(zhǔn)數(shù)據(jù)檢索框架對hive數(shù)據(jù)格式存放在HDFS中的數(shù)據(jù)進(jìn)行高速檢索,并且使用Impala的MPP查詢架構(gòu)對存放信息進(jìn)行高速查詢,同時(shí)還采用ElasticSearch分布式全文檢索框架,用作對大量索引的高速檢索,其中涉及到大數(shù)據(jù)分析中的語義分析功能(例如:分詞器),可以對非結(jié)構(gòu)化文件生成結(jié)構(gòu)化索引,達(dá)到轉(zhuǎn)換查詢的目的。 2.1.3 分布式計(jì)算和挖掘分布式計(jì)算:對于實(shí)時(shí)性要求較低的計(jì)算和分析,采用MapReduce分布式離線框架計(jì)算引擎(MapReduce是一種分布式計(jì)算模型。它提供了快速并行處理海量數(shù)據(jù)的能力,主要用解決海量數(shù)據(jù)的批量計(jì)算問題。MR由 Map和Reduce兩個(gè)過程組成。Map過程將一個(gè)分片數(shù)據(jù)根據(jù)用戶定義的Map邏輯處理后,經(jīng)由MapReduce框架處理,形成輸出結(jié)果,供后續(xù)Reduce過程使用。Reduce過程即將Map的結(jié)果作為輸入,根據(jù)用戶定義的Reduce邏輯,將數(shù)據(jù)處理并匯總,輸出最后的結(jié)果。在開發(fā)過程中,用戶只需實(shí)現(xiàn)map()和reduce()兩個(gè)函數(shù),即可實(shí)現(xiàn)分布式計(jì)算。); 對于實(shí)時(shí)性要求較高的應(yīng)用類計(jì)算和分析,采用Spark基于內(nèi)存的迭代式運(yùn)算(Spark是基于內(nèi)存計(jì)算的的大數(shù)據(jù)分布式計(jì)算框架。它是基于MapReduce算法實(shí)現(xiàn)的分布式計(jì)算平臺(tái),具有MapReduce所有優(yōu)點(diǎn)。不同于MapReduce的是,Spark計(jì)算任務(wù)的中間結(jié)果和最終結(jié)果都可以保存在內(nèi)存中,從而計(jì)算過程不再讀寫分布式文件系統(tǒng)。因此,Spark更加適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法),適合于例如對一卡通數(shù)據(jù)的分析和各類食堂、圖書館、洗澡堂等推薦功能應(yīng)用場景。 算法引擎:采用Apache Mahout(是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫)內(nèi)常見的需要用到的功能算法有時(shí)序分析、主成分分析、關(guān)聯(lián)和推薦、、統(tǒng)計(jì)、分類、聚類、回歸、特征工程、判別、信念網(wǎng)絡(luò)、圖計(jì)算等算法; 運(yùn)維監(jiān)控:對大數(shù)據(jù)環(huán)境系統(tǒng)的分布式組件、硬件資源進(jìn)行實(shí)時(shí)監(jiān)控和運(yùn)維管理,采用Cloudera Manager組件,是一個(gè)擁有集群自動(dòng)化安裝、中心化管理、集群監(jiān)控、報(bào)警功能的一個(gè)工具(軟件),使得安裝集群從幾天的時(shí)間縮短在幾個(gè)小時(shí)內(nèi),運(yùn)維人員從數(shù)十人降低到幾人以內(nèi),極大的提高集群管理的效率 (1)管理:對集群進(jìn)行管理,如添加、刪除節(jié)點(diǎn)等操作。 (2)監(jiān)控:監(jiān)控集群的健康情況,對設(shè)置的各種指標(biāo)和系統(tǒng)運(yùn)行情況進(jìn)行全面監(jiān)控。 (3)診斷:對集群出現(xiàn)的問題進(jìn)行診斷,對出現(xiàn)的問題給出建議解決方案。 (4)集成:對hadoop的多組件進(jìn)行整合。
2.2 基礎(chǔ)支撐平臺(tái)大數(shù)據(jù)底層基礎(chǔ)支持平臺(tái)統(tǒng)一采用VMware的虛擬化軟件來構(gòu)建整體云計(jì)算架構(gòu),基礎(chǔ)支撐平臺(tái)虛擬化是實(shí)現(xiàn)業(yè)務(wù)虛擬化的基礎(chǔ)和關(guān)鍵,上層的應(yīng)用支撐和業(yè)務(wù)服務(wù)都要依賴與基礎(chǔ)架構(gòu)平臺(tái),以滿足資源可靠性、可用性及可服務(wù)性需求。目前階段部署和實(shí)施,滿足的當(dāng)前的業(yè)務(wù)應(yīng)用,后期再逐步的完善功能。 基礎(chǔ)支撐平臺(tái)進(jìn)行虛擬化設(shè)計(jì)后,可將學(xué)校的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等硬件層設(shè)備形成計(jì)算資源池、存儲(chǔ)資源池和網(wǎng)絡(luò)資源池。在服務(wù)器虛擬化的支撐下,為現(xiàn)階段運(yùn)行、未來擴(kuò)建的各應(yīng)用系統(tǒng)提供系統(tǒng)級高可用、容錯(cuò)、系統(tǒng)在線遷移、存儲(chǔ)在線遷移、資源動(dòng)態(tài)負(fù)載均衡、虛擬機(jī)自動(dòng)備份等功能,同時(shí)借助云資源管理服務(wù),資源池在不同組織間的動(dòng)態(tài)調(diào)配等能力。 2.2.1 虛擬資源需求運(yùn)行大數(shù)據(jù)平臺(tái)共需15臺(tái)VM,每臺(tái)VM的配置如下,分別用于安裝和部署如下功能組件: 2.2.2 物理服務(wù)器配置4臺(tái)物理服務(wù)器,作業(yè)虛擬化的計(jì)算和存儲(chǔ)資源池,每臺(tái)配置如下:CPU:2E5-2600系統(tǒng) (2.5GHz/12c);內(nèi)存:192GB DDR4;存儲(chǔ):71.2TB SAS硬盤;RAID:1GB緩存,支持1/0/5/6;網(wǎng)卡:四千兆,雙端口SFP 萬兆網(wǎng)卡 2個(gè)萬兆光模塊; 計(jì)算資源:21284=768核>280核 內(nèi)存資源:1924=768GB>560GB 存儲(chǔ)資源:612004/1000≈29TB>27TB 2.2.3 網(wǎng)絡(luò)資源1、建議部署Hadoop組件(HDFS\HIVE\HBASE\YRAN\ZK等)的每臺(tái)VM配置雙千兆網(wǎng)卡,有條件最好是配置萬兆網(wǎng)路或是鏈路聚合功能,保障一條網(wǎng)絡(luò)鏈路出現(xiàn)故障后,網(wǎng)絡(luò)任可正常服務(wù)和性能要求。 2、對于前端的WEB服務(wù)器(部署HA集群),建議每臺(tái)VM配置單千兆網(wǎng)卡即可; 3、大數(shù)據(jù)環(huán)境系統(tǒng)所有VM建議都在一個(gè)網(wǎng)段。
2.2.4 存儲(chǔ)資源存儲(chǔ)資源如果有條件,可以采用單獨(dú)磁盤陣列,或是采用服務(wù)器內(nèi)的硬盤(可以采用SSD(作為緩存) HDD(數(shù)據(jù)容量)混合模式)作為存儲(chǔ)的資源。 2.3 建設(shè)效果2.3.1 精準(zhǔn)畫像所謂用戶畫像,即通過多維的數(shù)據(jù)整體描述用戶的特征,那么學(xué)生的畫像就是通過采集學(xué)生在校期間的學(xué)習(xí)、生活、運(yùn)動(dòng)、作息、上網(wǎng)等多個(gè)維度的數(shù)據(jù)量化后,給每個(gè)學(xué)生都賦上特征屬性標(biāo)簽(學(xué)生的作息規(guī)律、努力程度、經(jīng)濟(jì)情況、社交關(guān)系等),進(jìn)行全方位的分析,可以用于揭示學(xué)生在校學(xué)習(xí)、成長和生活軌跡,從而為學(xué)校針對學(xué)生進(jìn)行個(gè)性化和精準(zhǔn)化的管理和引導(dǎo)提供重要依據(jù)。 2.3.2 社交網(wǎng)絡(luò)社交網(wǎng)絡(luò)的構(gòu)建是通過分析學(xué)生之間校園行為軌跡相似性來實(shí)現(xiàn)的,主要是通過統(tǒng)計(jì)學(xué)生在地點(diǎn)共現(xiàn)(短時(shí)間內(nèi)出現(xiàn)在同一地點(diǎn),例如食堂、圖書館、澡堂等,通過WIFI和一卡通、門禁等數(shù)據(jù)的采集)的頻率,也就是說通過采集學(xué)生之間在某個(gè)時(shí)間點(diǎn)內(nèi)同時(shí)出現(xiàn)的概率,概率越高,就認(rèn)為是朋友關(guān)系,類似于微信的朋友圈等,分析共現(xiàn)的顯著性。同時(shí)通過大數(shù)據(jù)的挖掘與分析,給不同個(gè)體賦上獨(dú)特屬性標(biāo)簽,如專業(yè)、性別、民族等,并以此分析出其個(gè)性化的社交需求,對其社交圈進(jìn)行刻畫。 可以構(gòu)建每個(gè)學(xué)生在班級、年級、院系的社交網(wǎng)絡(luò)關(guān)系圖,基于個(gè)人的社交網(wǎng)絡(luò)構(gòu)建全校學(xué)生的設(shè)計(jì)網(wǎng)絡(luò)關(guān)系圖,越是處于中心人員,人際交往和社交關(guān)系比較好,越是邊緣或是連接點(diǎn)很少的,人際交往相對會(huì)差一些,用于發(fā)現(xiàn)校園內(nèi)孤獨(dú)人群、進(jìn)行心里健康輔導(dǎo)、以及一些重點(diǎn)人群監(jiān)控等,同時(shí)可以指定相應(yīng)的社交關(guān)系網(wǎng)絡(luò)推薦或是信息推送服務(wù)等,例如可以為學(xué)生匹配和推薦行為習(xí)慣和興趣愛好相識的個(gè)體建立社交關(guān)系等,更好地服務(wù)于學(xué)生個(gè)體的社會(huì)交往需要。 2.3.3 成績預(yù)警高校學(xué)生成績特別好、特別差和成績突變的學(xué)生是教育者最關(guān)心的人群,那么影響學(xué)生成績的因素除了第一課堂(學(xué)習(xí)成績、到課率、準(zhǔn)點(diǎn)率、基礎(chǔ)知識掌握情況),還有第二課堂(學(xué)生參加活動(dòng)、獎(jiǎng)懲情況)、經(jīng)濟(jì)消費(fèi)、個(gè)人信息、生活規(guī)律和上網(wǎng)等幾個(gè)方面,針對成績預(yù)警,可以綜合這幾個(gè)維度進(jìn)行全方位分析,提示教育者及早發(fā)現(xiàn)問題并進(jìn)行干預(yù),盡可能避免掛科問題。 1、基礎(chǔ)知識相關(guān)性:基于矩陣分解的降維技術(shù),通過分析課程之間在基礎(chǔ)知識上的相關(guān)性來進(jìn)行掛科預(yù)測。例如某學(xué)生在第一學(xué)年課程中修高等數(shù)學(xué)1成績不好掛科了,那么當(dāng)他在修高等數(shù)學(xué)2的時(shí)候,系統(tǒng)就會(huì)提醒該學(xué)生有可能掛科; 2、基于學(xué)生努力程度:通過用學(xué)生在校的打水、出入圖書館、出入自習(xí)室的次數(shù)以及圖書借閱情況(例如成績好的學(xué)生借閱的都是專業(yè)方向的讀物,而成績差的同學(xué)喜歡借閱諸如小說的各類課外讀物)綜合來度量其努力程度,可以反映學(xué)生上自習(xí)或者上課的頻率,間接反映了學(xué)生花在學(xué)習(xí)上的時(shí)間。因而,去教學(xué)樓打水次數(shù)高的學(xué)生、頻繁去圖書館的同學(xué)成績較好。 3、基于學(xué)生的行為:選用學(xué)生上課監(jiān)控?cái)?shù)據(jù),準(zhǔn)點(diǎn)率,出勤率、努力程度、作息、上網(wǎng)是否健康,并結(jié)合上學(xué)期成績,做加權(quán)求和,目的在于反應(yīng)學(xué)生本學(xué)期的學(xué)習(xí)基礎(chǔ)與學(xué)習(xí)態(tài)度,評價(jià)學(xué)生學(xué)習(xí)是否健康,公式如下所示: f(成績(包含德育成績)) 其中f(x)為歸一化函數(shù)。再根據(jù)學(xué)生飲食是否健康。良好合理的健康飲食習(xí)慣是身體健康的保障;不良的飲食習(xí)慣則會(huì)導(dǎo)致人體正常的生理功能紊亂而感染疾病,嚴(yán)重時(shí)甚至?xí)绊懻9ぷ鲗W(xué)習(xí)生活。因此飲食要按照科學(xué)的比例進(jìn)行,公式如下: 飲食指數(shù)=(2×f(p_m) 2×f(t_d) f(S) f(p_n))/6 其中f(x)為歸一化函數(shù),p_m,t_d,S,p_n分別為早餐評價(jià),用餐標(biāo)準(zhǔn)差評價(jià),消費(fèi)差評價(jià),宵夜評價(jià)。 還有作息時(shí)間是否規(guī)律、上網(wǎng)時(shí)長是否合理、準(zhǔn)點(diǎn)率和出勤率是否正常以及歷史學(xué)科成績等分析,最終形成學(xué)生學(xué)業(yè)成績分析結(jié)果。這個(gè)算法背后的思想是通過分析學(xué)生的作息時(shí)間、行為軌跡、上課情況等各事物間的相關(guān)性來進(jìn)行成績預(yù)測,例如:作息時(shí)間規(guī)律、出勤率高、去圖書館較頻繁、按時(shí)吃早餐等的同學(xué)成績較好。 2.3.4 精準(zhǔn)資助準(zhǔn)確識別扶助對象是實(shí)施“精準(zhǔn)資助”管理服務(wù)的前提,客觀、動(dòng)態(tài)和多維度大數(shù)據(jù)整合庫,是實(shí)施“精準(zhǔn)資助”的基礎(chǔ)。對貧困生判定的影響因子主要包括:(1)家庭基本信息,包括學(xué)生家庭成員組成、家庭成員信息、成員學(xué)歷、家庭年收入、負(fù)債金額等基本家庭信息。(2)歷史資助信息,學(xué)生以往獲得的資助信息(是否獲得資助、資助金額以及經(jīng)濟(jì)困難情況)(3)一卡通(食堂、超市、醫(yī)院、開水室、自助打印、電費(fèi)、洗衣房、浴室等)消費(fèi)數(shù)據(jù),包括一卡通平均單次消費(fèi)金額、單次充值金額及充值間隔、月消費(fèi)總額、逐月消費(fèi)變化趨勢、消費(fèi)時(shí)間段規(guī)律等。(4)消費(fèi)趨勢,即獲得資助后消費(fèi)習(xí)慣和軌跡改變的數(shù)據(jù)信息,如在獲得資助之后出現(xiàn)大額消費(fèi)的數(shù)據(jù)信息。(5)調(diào)查問卷,收集來自于輔導(dǎo)員及周圍同學(xué)日常評價(jià)并轉(zhuǎn)換為量化數(shù)據(jù)。通過對以上數(shù)據(jù)的收集和處理分析,基于大數(shù)據(jù)分析的基礎(chǔ)上,建立精準(zhǔn)資助模型:
精準(zhǔn)資助主要提供一下兩方面的功能: 一是識別虛假貧困生,通過大數(shù)據(jù)綜合分析學(xué)生的各類消費(fèi)數(shù)據(jù),能夠有效識別家庭經(jīng)濟(jì)情況較好的學(xué)生申報(bào)貧困生名額冒領(lǐng)國家資助的現(xiàn)象,對于這類學(xué)生取消其資助資格; 二是發(fā)現(xiàn)潛在貧困生,對于一些貧困學(xué)生由于自尊心較強(qiáng)等因素,往往不會(huì)主動(dòng)申請資助,這樣就使得這類學(xué)生難以通過傳統(tǒng)的方式來被學(xué)校管理這發(fā)現(xiàn)。現(xiàn)在通過精準(zhǔn)資助識別系統(tǒng),能迅速地發(fā)現(xiàn)此類學(xué)生,并可以采取發(fā)放隱性補(bǔ)助的方式進(jìn)行幫扶(例如每月定時(shí)向其一卡通內(nèi)存入一定數(shù)額資金),同時(shí),根據(jù)對貧困生的等級(一般、嚴(yán)重、特別),實(shí)施動(dòng)態(tài)補(bǔ)助等方式。 很好地幫助困難資助管理工作者對學(xué)生資助信息實(shí)施動(dòng)態(tài)管理。通過以上流程構(gòu)建起數(shù)據(jù)收集、存儲(chǔ)、分析和數(shù)據(jù)挖掘?yàn)橐惑w的大數(shù)據(jù)精準(zhǔn)篩選、甄別和定位系統(tǒng),客觀公正且及時(shí)、動(dòng)態(tài)和準(zhǔn)確地識別校園亟待資助和扶助對象。 3 核心組件1、HDFS:是Hadoop應(yīng)用程序中主要的分布式儲(chǔ)存系統(tǒng), HDFS集群包含了一個(gè)NameNode(主節(jié)點(diǎn)),這個(gè)節(jié)點(diǎn)負(fù)責(zé)管理所有文件系統(tǒng)的元數(shù)據(jù)及存儲(chǔ)了真實(shí)數(shù)據(jù)的DataNode(數(shù)據(jù)節(jié)點(diǎn),可以有很多)。HDFS針對海量數(shù)據(jù)所設(shè)計(jì),所以相比傳統(tǒng)文件系統(tǒng)在大批量小文件上的優(yōu)化,HDFS優(yōu)化的則是對小批量大型文件的訪問和存儲(chǔ)。 2、MapReduce:是一個(gè)軟件框架,用以輕松編寫處理海量(TB級)數(shù)據(jù)的并行應(yīng)用程序,以可靠和容錯(cuò)的方式連接大型集群中上萬個(gè)節(jié)點(diǎn)(商用硬件)。 3、Hive:是Hadoop的一個(gè)數(shù)據(jù)倉庫系統(tǒng),促進(jìn)了數(shù)據(jù)的綜述(將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表)、即席查詢以及存儲(chǔ)在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時(shí)當(dāng)使用這個(gè)語言表達(dá)一個(gè)邏輯變得低效和繁瑣時(shí),HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。hive類似CloudBase,基于hadoop分布式計(jì)算平臺(tái)上的提供data warehouse的sql功能的一套軟件。使得存儲(chǔ)在hadoop里面的海量數(shù)據(jù) 的匯總,即席查詢簡單化。 4、HBase:是Hadoop數(shù)據(jù)庫,一個(gè)分布式、可擴(kuò)展的大數(shù)據(jù)存儲(chǔ)。它提供了大數(shù)據(jù)集上隨機(jī)和實(shí)時(shí)的讀/寫訪問,并針對了商用服務(wù)器集群上的大型表格做出優(yōu)化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實(shí)現(xiàn),分布式列式存儲(chǔ)。就像Bigtable利用GFS(Google File System)提供的分布式數(shù)據(jù)存儲(chǔ)一樣,它是Apache Hadoop在HDFS基礎(chǔ)上提供的一個(gè)類Bigatable。 5、ZooKeeper:是Google的Chubby一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、 分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
|
|