|
公司基本資料信息
|
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識,數(shù)據(jù)挖掘(Data?Mining)技術(shù)由此應(yīng)運(yùn)而生。
數(shù)據(jù)是知識的源泉。但是,擁有大量的數(shù)據(jù)與擁有許多有用的知識完全是兩回事。過去幾年中,從數(shù)據(jù)庫中發(fā)現(xiàn)知識這一領(lǐng)域發(fā)展的很快。廣闊的市場和研究利益促使這一領(lǐng)域的飛速發(fā)展。計(jì)算機(jī)技術(shù)和數(shù)據(jù)收集技術(shù)的進(jìn)步使人們可以從更加廣泛的范圍和幾年前不可想象的速度收集和存儲(chǔ)信息。收集數(shù)據(jù)是為了得到信息,然而大量的數(shù)據(jù)本身并不意味信息。盡管現(xiàn)代的數(shù)據(jù)庫技術(shù)使我們很容易存儲(chǔ)大量的數(shù)據(jù)流,但現(xiàn)在還沒有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經(jīng)驗(yàn)知識經(jīng)過分析、篩選、比較、綜合、再提取出知識和規(guī)則。然而,由于知識工程師所擁有知識的有局限性,所以對于獲得知識的可信度就應(yīng)該打個(gè)折扣。
數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注,同時(shí),在實(shí)際問題中,大量成功運(yùn)用數(shù)據(jù)挖掘的實(shí)例說明了數(shù)據(jù)挖掘?qū)茖W(xué)研究具有很大的促進(jìn)作用。
數(shù)據(jù)挖掘的任務(wù)與方法的多樣性對數(shù)據(jù)挖掘提出了大量帶有挑戰(zhàn)性的問題,未來將會(huì)形成更大的研究高潮,研究的焦點(diǎn)可能主要會(huì)集中在下面幾個(gè)方面:
1、探索新的應(yīng)用領(lǐng)域
目前,數(shù)據(jù)挖掘正在不斷探索擴(kuò)大它的應(yīng)用范圍,例如:生物醫(yī)學(xué)和電信等領(lǐng)域。由于通用的數(shù)據(jù)挖掘方法在處理特定的應(yīng)用問題時(shí)存在一定的局限性。所以,目前數(shù)據(jù)挖掘的一種趨勢就是開發(fā)具有針對性的應(yīng)用領(lǐng)域數(shù)據(jù)挖掘系統(tǒng)。
2、數(shù)據(jù)挖掘方法面向可伸縮性
數(shù)據(jù)挖掘一個(gè)非常重要的方向就是一種基于約束的挖掘方式。這一方向主要致力于如何在增加用戶交互的同時(shí),提高挖掘處理的總體效率。并且它也提供了額外的控制方法,從而允許使用用戶說明與約束,引導(dǎo)數(shù)據(jù)挖掘的系統(tǒng)向有關(guān)聯(lián)的模式搜索。
3、挖掘語言標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘語言和其他方面的標(biāo)準(zhǔn)化,將有利于數(shù)據(jù)挖掘工作進(jìn)行系統(tǒng)的開發(fā),改善多個(gè)數(shù)據(jù)挖掘系統(tǒng)之間的相互操作,從而推廣數(shù)據(jù)挖掘系統(tǒng)在企業(yè)以及社會(huì)教育中的使用。
4、數(shù)據(jù)挖掘可視化
數(shù)據(jù)挖掘的可視化指的是從大量的數(shù)據(jù)中發(fā)現(xiàn)具有知識的有效途徑。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個(gè)研究熱點(diǎn),并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實(shí)現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。