央廣網(wǎng)沈陽3月14日消息(記者徐志強(qiáng))目前,大數(shù)據(jù)技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域,高效的集成管理與分析技術(shù)成為充分挖掘大數(shù)據(jù)價(jià)值的關(guān)鍵。海量數(shù)據(jù)的規(guī)模已遠(yuǎn)遠(yuǎn)超出了人們掌握和理解數(shù)據(jù)的能力,給數(shù)據(jù)的正確使用帶來了巨大挑戰(zhàn)。尤其是異構(gòu)數(shù)據(jù),由于缺乏統(tǒng)一的格式與規(guī)范,在各部門和各軟件系統(tǒng)中的流動(dòng)與共享困難重重。
近日,由東北大學(xué)王國仁教授牽頭研發(fā)的項(xiàng)目“海量異構(gòu)數(shù)據(jù)集成管理與分析技術(shù)及應(yīng)用”針對(duì)數(shù)據(jù)集成質(zhì)量、數(shù)據(jù)管理效率和數(shù)據(jù)分析可伸縮性等關(guān)鍵難題開展攻關(guān),從模式匹配、數(shù)據(jù)清洗、數(shù)據(jù)管理和數(shù)據(jù)分析等關(guān)鍵技術(shù)切入,實(shí)現(xiàn)了以質(zhì)量為中心的數(shù)據(jù)集成、以效率為中心的數(shù)據(jù)管理和以伸縮性為中心的數(shù)據(jù)分析,在我國“數(shù)字水資源”“數(shù)字醫(yī)療”和“數(shù)字國土資源”等領(lǐng)域的海量異構(gòu)數(shù)據(jù)集成管理與分析方面發(fā)揮了不可替代的作用。該項(xiàng)目獲得2016年度教育部高等學(xué)?萍歼M(jìn)步一等獎(jiǎng)。
以NoSQL和NewSQL為代表的大數(shù)據(jù)管理系統(tǒng),在海量異構(gòu)數(shù)據(jù)的集成管理與分析功能和性能上存在許多不足,具有巨大的提升潛力。海量異構(gòu)數(shù)據(jù)的集成管理與分析有效手段的欠缺,導(dǎo)致了數(shù)據(jù)管理與分析處理低效和知識(shí)發(fā)現(xiàn)困難。針對(duì)這些技術(shù)瓶頸,“海量異構(gòu)數(shù)據(jù)集成管理與分析技術(shù)及應(yīng)用”項(xiàng)目提出了一套基于人機(jī)交互的數(shù)據(jù)集成體系,與當(dāng)前國際上最先進(jìn)的數(shù)據(jù)清洗系統(tǒng)相比,數(shù)據(jù)集成質(zhì)量提升至少10%,集成方法的可用性居世界領(lǐng)先水平;開發(fā)了基于消息傳遞機(jī)制的改進(jìn)框架及建立于其上的高效查詢處理技術(shù),與國際通用的Hadoop生態(tài)系統(tǒng)相比,數(shù)據(jù)管理效率提升50%以上;在國際上率先提出了面向大數(shù)據(jù)的分布式極限學(xué)習(xí)機(jī)(ELM)數(shù)據(jù)分析技術(shù),實(shí)現(xiàn)了整合有監(jiān)督、半監(jiān)督和無監(jiān)督的分布式極限學(xué)習(xí)機(jī),與主流的分布式學(xué)習(xí)系統(tǒng)Mahout相比,系統(tǒng)的平臺(tái)可伸縮性、數(shù)據(jù)可伸縮性、隱層節(jié)點(diǎn)可伸縮性、數(shù)據(jù)標(biāo)注可伸縮性最高提升近20倍。
本項(xiàng)目技術(shù)成果和系統(tǒng)已經(jīng)成功應(yīng)用于5家企事業(yè)單位的7類產(chǎn)品和業(yè)務(wù)化運(yùn)行系統(tǒng)中,支撐了系統(tǒng)集成商、政府部門、企事業(yè)單位等100余家大型單位的關(guān)鍵業(yè)務(wù)系統(tǒng)。項(xiàng)目研發(fā)了具有自主知識(shí)產(chǎn)權(quán)的海量異構(gòu)數(shù)據(jù)集成管理與分析平臺(tái),2013年到2015年,累計(jì)新增銷售額144802.1萬元,新增利潤21666.35萬元,新增稅收6439.79萬元,取得了突出的社會(huì)和經(jīng)濟(jì)效益。