自然語言處理(Natural Language Processing,簡稱NLP)可能是當(dāng)前數(shù)據(jù)科學(xué)中最受關(guān)注的子領(lǐng)域。
NLP不僅有趣、有前途,而且還可以改變我們看待技術(shù)的方式。不僅是技術(shù),它還可以改變我們理解人類語言的方式。
自然語言處理是人類語言與技術(shù)的結(jié)合,如今該項技術(shù)在研究和行業(yè)領(lǐng)域受到的關(guān)注越來越多。自從第一臺計算機誕生以來,人們就憧憬著創(chuàng)造出能夠理解人類語言的計算機程序。
機器學(xué)習(xí)與人工智能領(lǐng)域的進步推動了自然語言處理的發(fā)展,以及人們持續(xù)高漲的興趣。隨著自然語言處理為我們的日常生活帶來越來越多的便利,人們的興趣也會越來越高。亞馬遜的 Alexa、蘋果的 Siri 以及 Google 助手等一系列技術(shù)產(chǎn)品的問世,充分表明了這項技術(shù)掀起的熱浪。
事實上,自然語言處理也是我進入數(shù)據(jù)科學(xué)的緣由。我一直著迷于語言本身及其隨著人類的經(jīng)驗和時間的發(fā)展。我想了解如何教計算機理解我們的語言,不僅如此,而且我還希望計算機能夠使用人類的語言來和我們交流,并理解我們。
在本文中,我將介紹 6 種自然語言處理的基本技術(shù),如果你也想涉足該領(lǐng)域,則應(yīng)該掌握這些技術(shù)。
詞形還原與詞干提取
數(shù)據(jù)準(zhǔn)備是所有 NLP 項目都必不可少的工作,常見的方式有兩種:詞形還原與詞干提取,你可以選擇其中一個方式。它們代表了該領(lǐng)域的核心概念,是你成為 NLP 大師需要學(xué)習(xí)的第一項技術(shù)。
初學(xué)者往往會混淆這兩種技術(shù)。雖然二者有相似之處,但是有很大不同。
詞干提取(Stemming):詞干提取是去除詞綴得到詞根的過程,即得到單詞最一般的寫法,比如:argue、argued、argues、arguing 和 argus 的詞干為“argu”。執(zhí)行詞干提取的算法有很多,這些算法需要考慮單詞常見的前綴與后綴。英語中常用的算法是 Porter 詞干提取器,該算法包含 5 個階段,需要按順序進行,最終獲取單詞的詞根。
詞形還原(Lemmatization):詞形還原是指將一個單詞還原為一般形式(能表達完整語義)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式為“walk”。為了克服詞干提取的缺點,人們設(shè)計了詞形還原。這些算法需要了解語言與語法的知識,才能在提取單詞詞元的時候做出更好的決定。為了詞形還原算法執(zhí)行的準(zhǔn)確率,它們需要提取每個單詞的詞元。因此,通常它們需要語言的詞典,才能正確地分類每個單詞。
根據(jù)這些定義,你應(yīng)該可以看出詞形還原比詞干提取更加復(fù)雜,而且實現(xiàn)這種算法也需要更多的時間。但是,詞形還原更加準(zhǔn)確,而且最終分析結(jié)果的噪聲也更少。
關(guān)鍵字提取
關(guān)鍵字提取,有時又稱之為關(guān)鍵字檢測或關(guān)鍵字分析,這是一種文本分析的 NLP 技術(shù)。這種技術(shù)的主要目的是自動地從文本的正文中提取出現(xiàn)頻率最高的單詞與詞組。這種技術(shù)常常作為生成本文摘要的第一步,提取文本的主旨。
關(guān)鍵字提取算法借助了機器學(xué)習(xí)與人工智能的強大力量。這種算法使用神經(jīng)網(wǎng)絡(luò)來提取和簡化文本,以方便計算機理解。這種算法適合任何類型的文本,從學(xué)術(shù)文本到社交媒體帖子中常用的口語化文本。
關(guān)鍵字提取在當(dāng)今世界中有很多應(yīng)用,包括社交媒體監(jiān)控、客戶服務(wù)/反饋、產(chǎn)品分析以及搜索引擎優(yōu)化。
命名實體識別(NER)
詞干提取、詞形還原、命名實體識別(Named Entity Recognition,簡稱NER)是最基本以及核心的 NLP 技術(shù)。
NER 是一項從文本的正文中提取實體的技術(shù),這里的實體主要包括人名、地名、機構(gòu)名、專有名詞等,以及時間、數(shù)量、貨幣、比例數(shù)值等文字。
NER 算法主要包含兩大步驟。第一步,檢測文本中的實體;第二步,將實體分類到一個類別集合。NER 的表現(xiàn)極大地依賴于開發(fā)模型時使用的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越接近真實的數(shù)據(jù),最終的結(jié)果就越準(zhǔn)確。
關(guān)系到 NER 模型準(zhǔn)確性的另一個因素是構(gòu)建模型時使用的語言知識。話雖如此,網(wǎng)上有很多預(yù)訓(xùn)練的 NER 平臺,可供隨時使用。
NER 可以應(yīng)用到多種領(lǐng)域,比如構(gòu)建推薦系統(tǒng),在醫(yī)療保健中為患者提供更好的服務(wù),以及在學(xué)術(shù)界中幫助學(xué)生獲得相關(guān)的研究材料。
主題建模
你可以使用提取關(guān)鍵字的方式,將大段的文本壓縮成幾個主要的關(guān)鍵詞和概念。然后在此基礎(chǔ)上,提煉出文本的主題。
另外,還有一種更先進的識別文本主題的方式:主題建模。主題建模構(gòu)建于非監(jiān)督機器學(xué)習(xí)的基礎(chǔ)之上,這類機器學(xué)習(xí)的訓(xùn)練不需要帶標(biāo)簽的數(shù)據(jù)。
文本的主題建模算法有很多種,比如相似主題模型(Correlated Topic Model,CTM)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潛在語義分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。這種方法可以分析文本,并將文本分解成單詞和語句,然后從這些單詞和語句中提取不同的主題。你需要做的只是為算法提供文本,接下來的工作全部由算法完成。
文本摘要
還有一個非常實用,且前景非常看好的 NLP 應(yīng)用,那就是文本摘要。這種算法可以將大段文本壓縮成一小塊只包含文本大意的文字。這種技術(shù)常用于提煉長篇新聞文章,以及提取研究論文的摘要。
文本摘要是一項先進的技術(shù),它使用了上述我們提到的技術(shù)(比如主題建模以及關(guān)鍵字提取等)來完成目標(biāo)工作。這種方法通常包含兩大步驟:提取和抽象。
在提取階段,算法會根據(jù)單詞在文本中出現(xiàn)的頻率,提取文本的主要部分。接著,算法會生成摘要,即通過一段全新的文本來傳達原文的主旨。文本摘要的算法有很多種,比如 LexRank 與 TextRank。
LexRank 算法通過一個排名模型來分類文本中的句子。這種排名依據(jù)的是句子之間的相似性,某個句子與其余文本的相似性越高,它的排名就越高。
情感分析
情感分析(Sentiment Analysis)是人氣最高、知名度最廣的 NLP 技術(shù)之一。這種技術(shù)的核心功能是通過分析文本包含的單詞,提取文本所表達的情感。
這項技術(shù)最簡單的結(jié)果是一項表示積極、消極和中性的評分,該結(jié)果用數(shù)字表示。如果結(jié)果是負數(shù),則代表文本背后的情緒為消極;如果結(jié)果為正數(shù),則表示文本表達了積極的觀點。
情感分析是機器學(xué)習(xí)技術(shù)的廣泛應(yīng)用之一。它可以通過監(jiān)督學(xué)習(xí)實現(xiàn),也可以通過非監(jiān)督學(xué)習(xí)實現(xiàn)。最常見的通過監(jiān)督學(xué)習(xí)實現(xiàn)的情感分析是使用樸素貝葉斯算法。還有其他機器學(xué)習(xí)算法也可用于情感分析的實現(xiàn),比如梯度提升(Gradient Boosting)以及隨機森林。
總結(jié)
人類對于計算理解自然語言,并使用自然語言與我們交流的渴望由來已久。隨著技術(shù)與機器學(xué)習(xí)算法的飛速發(fā)展,這種想法已不只是一種憧憬。我們已經(jīng)可以在日常生活中看到和體驗這種技術(shù)。這種想法是自然語言處理的核心。
自然語言處理是當(dāng)今的熱門話題之一,也是非常有潛力的領(lǐng)域之一。各大公司和研究機構(gòu)都在競相創(chuàng)建能夠完全理解并使用人類語言的計算機程序。自從 1960 年代虛擬代理問世以來,這項技術(shù)已獲得了飛速的發(fā)展。
盡管自然語言處理可以執(zhí)行的任務(wù)不同,但為了進軍該領(lǐng)域,并建立自己的項目,你必須熟練掌握該領(lǐng)域基本的六大核心技術(shù)。
這些技術(shù)是所有自然語言處理模型的基礎(chǔ)。如果你已經(jīng)理解了這些技術(shù),并知道何時使用何種技術(shù),那么自然語言處理的大門就會向你敞開。
審核編輯 :李倩
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134273 -
自然語言處理
+關(guān)注
關(guān)注
1文章
628瀏覽量
14070 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22541
原文標(biāo)題:數(shù)據(jù)科學(xué)家必會的六大 NLP 技術(shù)!
文章出處:【微信號:5G通信,微信公眾號:5G通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論