|
公司基本資料信息
|
隨著計(jì)算機(jī)的日益普及和互聯(lián)網(wǎng)的迅猛發(fā)展,社會(huì)的信息化程度越來(lái)越高,計(jì)算機(jī)的使用也越來(lái)越廣泛,如何清晰、高效、簡(jiǎn)潔的同計(jì)算機(jī)交流,成為各界人士共同關(guān)注的焦點(diǎn),自然語(yǔ)言理解也被人們寄予高度的期待。
人類(lèi)自然語(yǔ)言通常以詞為基本構(gòu)成單位,進(jìn)而構(gòu)成句子,再由句子形成篇章。篇章的語(yǔ)義由篇章中包含的所有句子的語(yǔ)義綜合而成,而句子的語(yǔ)義又由句中的詞語(yǔ)語(yǔ)義及一定的語(yǔ)法所確定;作為句子和篇章的基本構(gòu)成單位,詞語(yǔ)具有特定的語(yǔ)義和內(nèi)涵。在詞語(yǔ)層次上,詞語(yǔ)語(yǔ)義分析意味著詞語(yǔ)的內(nèi)涵分析、詞語(yǔ)之間的語(yǔ)義相似度或相關(guān)度分析,這是句子分析和篇章語(yǔ)義分析的基礎(chǔ),也是信息抽取、機(jī)器翻譯等應(yīng)用領(lǐng) 域的基礎(chǔ)問(wèn)題。一個(gè)句子,通常是按照特定的語(yǔ)義規(guī)則對(duì)若干詞語(yǔ)的一個(gè)有序排列。為此,句子的語(yǔ)義分析需要綜合詞語(yǔ)語(yǔ)義和相關(guān)語(yǔ)義規(guī)則分析,它是篇章語(yǔ)義分析的基礎(chǔ),也是自動(dòng)問(wèn)答系統(tǒng)等領(lǐng)域的基礎(chǔ)研究課題。篇章級(jí)別的語(yǔ)義分析,意味著對(duì)文本進(jìn)行主題、類(lèi)別等語(yǔ)義信息的識(shí)別,實(shí)現(xiàn)對(duì)大規(guī)模文本集合的有效管理與挖掘。
語(yǔ)義是指信息包含的概念和意義。語(yǔ)義不僅表述事物本質(zhì),還表述事物之間的因果、上下位、施事等各種邏輯關(guān)系。因此,語(yǔ)義是對(duì)事物的描述和邏輯表示。語(yǔ)義分析就是對(duì)信息所包含的語(yǔ)義的識(shí)別,并建立一種計(jì)算模型,使其能夠像人那樣理解自然語(yǔ)言。語(yǔ)義分析是自然語(yǔ)言理解的根本問(wèn)題,它在自然語(yǔ)言處理、信息檢索、信息過(guò)濾、信息分類(lèi)、語(yǔ)義挖掘等領(lǐng)域有著廣泛的應(yīng)用。在互聯(lián)網(wǎng)時(shí)代,面對(duì)海量的信息資源,要想準(zhǔn)確地進(jìn)行信息抽取,檢索所需信息、挖掘潛在的信息價(jià)值、提供智能的知識(shí)服務(wù),都離不開(kāi)面向機(jī)器理解的語(yǔ)義分析。尤其在大數(shù)據(jù)環(huán)境下,語(yǔ)義分析的地位越來(lái)越凸顯出來(lái)。
按照多數(shù)文獻(xiàn)的觀點(diǎn)首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識(shí)別等——是通過(guò)分詞、詞頻和位置統(tǒng)計(jì)等手段獲得相關(guān)語(yǔ)言信息。其次,句法分析通過(guò)使句子成分特征化來(lái)分析句子結(jié)構(gòu)特征,通過(guò)對(duì)句子和短語(yǔ)結(jié)構(gòu)的分析找出詞、短語(yǔ)等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來(lái)表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。第三,為了理解一個(gè)提問(wèn),一般還需要更多的語(yǔ)義和語(yǔ)用知識(shí)來(lái)幫助理解句子的意思,通過(guò)分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語(yǔ)義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對(duì)句法成分做出細(xì)致的語(yǔ)義分類(lèi),它一般應(yīng)包括語(yǔ)言層面(即反映語(yǔ)言表面現(xiàn)象的知識(shí),如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語(yǔ)義關(guān)系)、常識(shí)層面等。雖然這項(xiàng)工作浩繁,但目前已經(jīng)取得了一些初步成果。最后,篇章分析用于對(duì)多個(gè)語(yǔ)句、段落之間在結(jié)構(gòu)或者語(yǔ)義上的相互關(guān)系進(jìn)行分析。
北京理工大學(xué)大數(shù)據(jù)實(shí)驗(yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語(yǔ)義信息抽取、文本分類(lèi)、情感分析、語(yǔ)義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類(lèi)等功能。
在大數(shù)據(jù)時(shí)代,對(duì)海量文本信息進(jìn)行有效的語(yǔ)義分析已經(jīng)是自然語(yǔ)言處理、信息檢索、信息分類(lèi)、信息過(guò)濾、語(yǔ)義挖掘、文本的機(jī)器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問(wèn)題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。NLPIR大數(shù)據(jù)語(yǔ)義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語(yǔ)言理解系統(tǒng)的廣泛應(yīng)用。