女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里巴巴B2B在電商結(jié)構(gòu)化信息挖掘和場(chǎng)景應(yīng)用

深度學(xué)習(xí)自然語言處理 ? 來源:《阿里巴巴B2B電商算法實(shí) ? 作者:阿里CBU技術(shù)部 ? 2020-08-28 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:發(fā)展是平臺(tái)永恒的話題,以電商平臺(tái)為例,在基于用戶身份、歷史行為挖掘偏好,以實(shí)現(xiàn)精準(zhǔn)搜索和推薦結(jié)果展示之外,為了激勵(lì)用戶在平臺(tái)進(jìn)行更多采購,需要專門構(gòu)建強(qiáng)化采購激勵(lì)、拓寬采購品類的場(chǎng)景。本文以知識(shí)圖譜為切入點(diǎn),重點(diǎn)講解了阿里巴巴B2B在電商結(jié)構(gòu)化信息挖掘和場(chǎng)景應(yīng)用等方面的經(jīng)驗(yàn)。

知識(shí)圖譜并不是一個(gè)全新的概念,它經(jīng)歷了知識(shí)工程、專家系統(tǒng)、語義網(wǎng)絡(luò)等多種形式。

01

知識(shí)工程與專家系統(tǒng)

在1977年第五屆國際人工智能會(huì)議上,美國斯坦福大學(xué)計(jì)算機(jī)科學(xué)家Edward A. Felgenbaum發(fā)表的文章The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系統(tǒng)性地闡述了“專家系統(tǒng)”的思想,并且提出了“知識(shí)工程”的概念。他認(rèn)為:“知識(shí)工程利用了人工智能的原理和方法,為那些需要專家知識(shí)才能解決的應(yīng)用難題提供求解的一般準(zhǔn)則和工具。在1984年8月全國第五代計(jì)算機(jī)專家討論會(huì)上,史忠植教授提出:“知識(shí)工程是研究知識(shí)信息處理的學(xué)科,提供開發(fā)智能系統(tǒng)的技術(shù),是人工智能、數(shù)據(jù)庫技術(shù)、數(shù)理邏輯、認(rèn)知科學(xué)、心理學(xué)等學(xué)科交叉發(fā)展的結(jié)果?!?專家系統(tǒng)最成功的案例是DEC的專家配置系統(tǒng)XCON。1980年,XCON最初被用于DEC位于新罕布什爾州薩利姆的工廠,它擁有大約2500條規(guī)則。截至1986年,它一共處理了80 000條指令,準(zhǔn)確率達(dá)到95%~98%。據(jù)估計(jì),通過減少技師出錯(cuò)時(shí)送給客戶的組件以加速組裝流程和增加客戶滿意度,它每年為DEC節(jié)省2500萬美元。 一個(gè)典型的專家系統(tǒng)如圖1所示,其特點(diǎn)主要包括:

在特定領(lǐng)域里要具有和人一樣或者超出人的高質(zhì)量解決困難問題的能力;

擁有大量、全面的關(guān)于特定領(lǐng)域的專業(yè)知識(shí);

采用啟發(fā)的方法來指導(dǎo)推理過程,從而縮小解決方案的搜索范圍;

能夠提供對(duì)自己的推理決策結(jié)果進(jìn)行解釋的能力;

引入表示不同類型知識(shí)(如事實(shí)、概念和規(guī)則)的符號(hào),專家系統(tǒng)在解決問題的時(shí)候用這些符號(hào)進(jìn)行推理;

能夠提供咨詢建議、修改、更新、拓展能力,并能處理不確定和不相關(guān)的數(shù)據(jù)。

圖1 專家系統(tǒng)架構(gòu)

可以看到,專家系統(tǒng)大量依靠領(lǐng)域?qū)<胰斯?gòu)建的知識(shí)庫。在數(shù)據(jù)量激增、信息暴漲的當(dāng)下,人工維護(hù)知識(shí)庫的方式在效率和覆蓋率上都難以達(dá)到令人滿意的水平。另外,推理規(guī)則的增加也增加了系統(tǒng)的復(fù)雜度,從而導(dǎo)致系統(tǒng)非常難以維護(hù)。

02

語義網(wǎng)絡(luò)與知識(shí)圖譜

1. 語義網(wǎng)絡(luò)伴隨著Web技術(shù)的不斷發(fā)展,人類先后經(jīng)歷了以網(wǎng)頁的鏈接為主要特征的Web 1.0時(shí)代到以數(shù)據(jù)的鏈接(Linked Data)為主要特征的Web 2.0時(shí)代,目前Web技術(shù)正逐步朝向Web之父Berners Lee在2001年提出的基于知識(shí)互聯(lián)的語義網(wǎng)絡(luò)(semantic Web),也就是Web 3.0時(shí)代邁進(jìn)。 在Web 2.0時(shí)代,互聯(lián)網(wǎng)發(fā)展迅猛,數(shù)據(jù)的規(guī)模呈爆發(fā)式增長,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法占據(jù)主流,并且在各個(gè)領(lǐng)域取得不錯(cuò)的成果。例如搜索引擎,搜索的流程大致可拆分為基于用戶查詢、召回、L2R這3個(gè)過程,一定程度提升了用戶獲取信息的效率。但是這種服務(wù)模式仍然是把一系列信息拋給用戶,用戶最終還是需要對(duì)數(shù)據(jù)進(jìn)行篩選、甄別,才能拿到自己最需要的信息。因此這種服務(wù)方式在效率、準(zhǔn)確率上都有缺陷。 語義網(wǎng)絡(luò)的目標(biāo)是構(gòu)建一個(gè)人與機(jī)器都可理解的萬維網(wǎng),使得網(wǎng)絡(luò)更加智能化,在解析用戶查詢意圖的基礎(chǔ)上,提供更加精準(zhǔn)和快速的服務(wù)。傳統(tǒng)的語義網(wǎng)絡(luò)要做到這一點(diǎn),就需要把所有在線文檔構(gòu)成的數(shù)據(jù)都進(jìn)行處理并存放在一起,形成一個(gè)巨大、可用的數(shù)據(jù)庫。 這么做需要強(qiáng)大的數(shù)據(jù)處理和Web內(nèi)容智能分析能力:首先就需要對(duì)這些Web數(shù)據(jù)進(jìn)行語義標(biāo)注,但是由于Web數(shù)據(jù)具有體量巨大、異質(zhì)異構(gòu)、領(lǐng)域范圍大等特點(diǎn),所以如何自動(dòng)給Web上的網(wǎng)頁內(nèi)容添加合適的標(biāo)簽成為技術(shù)痛點(diǎn)之一。另外,面對(duì)已經(jīng)標(biāo)注過的Web數(shù)據(jù),機(jī)器如何進(jìn)行思考和推理也是亟待解決的問題。 由于上述問題的存在,在語義網(wǎng)絡(luò)提出后的10年間,其沒有得到大規(guī)模應(yīng)用,但是在對(duì)其研究的過程中,積累沉淀了成熟的本體模型建模和形式化知識(shí)表達(dá)方法,例如RDF(Resource Description Framework)和萬維網(wǎng)本體語言(Web Ontology Language,OWL),這為后續(xù)知識(shí)圖譜的出現(xiàn)奠定了基礎(chǔ)。2. 知識(shí)圖譜① 知識(shí)圖譜概述知識(shí)圖譜由Google公司于2012年5月16日第一次正式提出并應(yīng)用于Google搜索中的輔助知識(shí)庫。谷歌知識(shí)圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的相關(guān)主題的信息。其目標(biāo)是提高搜索引擎的能力,希望用戶能夠使用這項(xiàng)功能來解決他們遇到的查詢問題,從而提高搜索質(zhì)量和用戶體驗(yàn)。 知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫,用于以符號(hào)形式描述物理世界中的概念及其之間的關(guān)系。其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體間通過關(guān)系相互連接,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。隨著知識(shí)圖譜構(gòu)建規(guī)模越來越大,復(fù)雜度越來越高,開始出現(xiàn)實(shí)體、類別、屬性、關(guān)系等多顆粒度、多層次的語義單元,這些關(guān)聯(lián)關(guān)系通過統(tǒng)一的知識(shí)模式(Schema)抽象層和知識(shí)實(shí)例(Instance)層共同作用構(gòu)成更加復(fù)雜的知識(shí)系統(tǒng)。 從定義中可以看到,知識(shí)圖譜是一個(gè)語義知識(shí)庫,具備足夠的領(lǐng)域知識(shí),其最重要的組成成分是三元組。三元組通常可以表示為G=,其中R表示知識(shí)圖譜中實(shí)體間所有關(guān)系的集合,例如關(guān)系“is_a”。一般情況下,關(guān)系都是帶方向且有明確語義的,反之則關(guān)系不能成立,例如“阿里巴巴is_a公司”。也有一些關(guān)系是雙向的,例如“張三is_friend_of李四”,反之亦然。對(duì)于這種雙向關(guān)系,通常情況會(huì)對(duì)調(diào)實(shí)體位置,拆分為2個(gè)三元組分別存儲(chǔ)。實(shí)體Eh、Et?E={e1,e2,...,e|E|}分別表示頭實(shí)體(Head Entity)、尾實(shí)體(Tail Entity),兩個(gè)實(shí)體共同用于表征關(guān)系的方向。 實(shí)體及其屬性可以用一種特殊的關(guān)系三元組表示,例如“has_a”。實(shí)體和屬性的界線比較模糊,一般從業(yè)務(wù)角度出發(fā),在設(shè)計(jì)Schema的時(shí)候,如果認(rèn)為某類屬性具有一類概念的共性,同時(shí)在后面的推理(例如路徑游走時(shí)新關(guān)系發(fā)現(xiàn))中能夠發(fā)揮作用,就可以把它作為實(shí)體對(duì)待。還有一類屬性,比如年齡、身高,這類單純描述實(shí)體特征的最細(xì)粒度屬性,則一般被設(shè)計(jì)為屬性。② 常見開放知識(shí)圖譜WordNet是由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室于1985年構(gòu)建的一個(gè)英文電子詞典和本體知識(shí)庫,采用人工標(biāo)注的方法構(gòu)建。WordNet主要定義了名詞、形容詞、動(dòng)詞和副詞之間的語義關(guān)系,包括同義關(guān)系、反義關(guān)系、上下位關(guān)系、整體部分關(guān)系、蘊(yùn)含關(guān)系、因果關(guān)系、近似關(guān)系等。比如,其中的名詞之間的上下位關(guān)系,“水果”是“蘋果”的上位詞。 Freebase是由創(chuàng)業(yè)公司MetaWeb于2005年啟動(dòng)的一個(gè)以開放、共享、協(xié)同的方式構(gòu)建的大規(guī)模鏈接數(shù)據(jù)庫語義網(wǎng)絡(luò)項(xiàng)目,2010年被谷歌收購并成為谷歌知識(shí)圖譜中的重要組成部分。Freebase主要數(shù)據(jù)源有Wikipedia、世界名人數(shù)據(jù)庫(NNDB)、開放音樂數(shù)據(jù)庫(Music-Brainz)以及社區(qū)用戶的貢獻(xiàn)。它主要通過三元組構(gòu)造知識(shí),并采用圖數(shù)據(jù)存儲(chǔ),有5800多萬個(gè)實(shí)體和30多億個(gè)實(shí)體間關(guān)系三元組。2016年正式關(guān)閉,數(shù)據(jù)和API服務(wù)都遷移至Wikidata。 Yago是由德國馬普研究所研發(fā)的鏈接知識(shí)庫,主要集成了Wikipedia、WordNet和GeoNames這3個(gè)數(shù)據(jù)庫中的數(shù)據(jù)。Yago將WordNet的詞匯定義與Wikipedia的分類體系進(jìn)行融合,從而使得Yago相對(duì)于DBpedia有更加豐富的實(shí)體分類體系,同時(shí)Yago還考慮了時(shí)間和空間知識(shí),為知識(shí)條目增加了時(shí)間和空間維度屬性描述。目前Yago已經(jīng)包含1.2億條三元組知識(shí),是IBM Watson的后端知識(shí)庫之一。 OpenKG是一個(gè)面向中文領(lǐng)域的開放知識(shí)圖譜社區(qū)項(xiàng)目,主要目的是促進(jìn)中文領(lǐng)域知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)。OpenKG上已經(jīng)收錄了大量開放中文知識(shí)圖譜數(shù)據(jù)、工具及文獻(xiàn)。目前開放的知識(shí)圖譜數(shù)據(jù)包括百科類的zhishi.me(狗尾草科技、東南大學(xué))、CN-DBpedia(復(fù)旦大學(xué))、XLore(清華大學(xué))等。 當(dāng)然,還有一些垂直領(lǐng)域知識(shí)圖譜,這類知識(shí)圖譜不像上述通用領(lǐng)域知識(shí)圖譜那樣所涉內(nèi)容廣而全。垂直領(lǐng)域知識(shí)圖譜主要面向特定領(lǐng)域的特定知識(shí)、應(yīng)用場(chǎng)景進(jìn)行構(gòu)建,比如醫(yī)療領(lǐng)域的Linked Life Data、電商領(lǐng)域的阿里巴巴商品知識(shí)圖譜和場(chǎng)景導(dǎo)購知識(shí)圖譜。

03

知識(shí)圖譜構(gòu)建

知識(shí)圖譜構(gòu)建是一個(gè)系統(tǒng)工程,涵蓋多種信息處理技術(shù),用于滿足圖譜構(gòu)建過程中的各種需要。典型的圖譜構(gòu)建流程主要包括:知識(shí)抽取、知識(shí)推理和知識(shí)存儲(chǔ)。 知識(shí)表示貫穿于整個(gè)知識(shí)圖譜構(gòu)建和應(yīng)用的過程,在不同階段知識(shí)表示具有不同的體現(xiàn)形式,例如在圖譜構(gòu)建階段,知識(shí)表示主要用于描述知識(shí)圖譜結(jié)構(gòu),指導(dǎo)和展示知識(shí)抽取、知識(shí)推理過程;在應(yīng)用階段,知識(shí)表示則主要考慮上層應(yīng)用期望知識(shí)圖譜提供什么類型的語義信息,用以賦能上層應(yīng)用的語義計(jì)算。 本節(jié)重點(diǎn)講述面向應(yīng)用的知識(shí)圖譜表示。1. 知識(shí)抽取知識(shí)抽取是知識(shí)圖譜構(gòu)建的第一步,是構(gòu)建大規(guī)模知識(shí)圖譜的關(guān)鍵,其目的是在不同來源、不同結(jié)構(gòu)的基礎(chǔ)數(shù)據(jù)中進(jìn)行知識(shí)信息抽取。按照知識(shí)在圖譜中的組成成分,知識(shí)抽取任務(wù)可以進(jìn)一步細(xì)分為實(shí)體抽取、屬性抽取和關(guān)系抽取。 知識(shí)抽取的數(shù)據(jù)源有可能是結(jié)構(gòu)化的(如現(xiàn)有的各種結(jié)構(gòu)化數(shù)據(jù)庫),也有可能是半結(jié)構(gòu)化的(如各種百科數(shù)據(jù)的infobox)或非結(jié)構(gòu)化的(如各種純文本數(shù)據(jù))。針對(duì)不同類型的數(shù)據(jù)源,知識(shí)抽取所需要的技術(shù)不同,技術(shù)難點(diǎn)也不同。通常情況下,一個(gè)知識(shí)圖譜構(gòu)建過程面對(duì)的數(shù)據(jù)源不會(huì)是單一類型數(shù)據(jù)源。 本節(jié)重點(diǎn)介紹針對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行信息抽取的技術(shù)。如上文所述,實(shí)體和屬性間的界線比較模糊,故可以用一套抽取技術(shù)實(shí)現(xiàn),所以下文如果不做特殊說明,實(shí)體抽取泛指實(shí)體、屬性抽取。① 實(shí)體抽取實(shí)體抽取技術(shù)歷史比較久遠(yuǎn),具有成體系、成熟度高的特點(diǎn)。早期的實(shí)體抽取也稱為命名實(shí)體識(shí)別(Named Entity Recognition,NER),指的是從原始語料中自動(dòng)識(shí)別出命名實(shí)體。命名實(shí)體指的是具有特定意義的實(shí)體名詞,如人名、機(jī)構(gòu)名、地名等專有名詞。實(shí)體是知識(shí)圖譜中的最基本的元素,其性能將直接影響知識(shí)庫的質(zhì)量。按照NER抽取技術(shù)特點(diǎn),可以將實(shí)體抽取技術(shù)分為基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。

基于規(guī)則的方法:

基于規(guī)則的方法首先需要人工構(gòu)建大量的實(shí)體抽取規(guī)則,然后利用這些規(guī)則在文本中進(jìn)行匹配。雖然這種方法對(duì)領(lǐng)域知識(shí)要求較高,設(shè)計(jì)起來會(huì)非常復(fù)雜,且實(shí)現(xiàn)規(guī)則的全覆蓋比較困難,移植性比較差,但是在啟動(dòng)的時(shí)候可以通過這個(gè)方法可以快速得到一批標(biāo)注語料。

基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法:

既然是機(jī)器學(xué)習(xí)的方法,就需要標(biāo)注語料,高質(zhì)量的標(biāo)注語料是通過這類方法得到好的效果的重要保障。該方法的實(shí)現(xiàn)過程為:在高質(zhì)量的標(biāo)注語料的基礎(chǔ)上,通過人工設(shè)計(jì)的特征模板構(gòu)造特征,然后通過序列標(biāo)注模型,如隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)和條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)進(jìn)行訓(xùn)練和識(shí)別。 模型特征的設(shè)計(jì)需要較強(qiáng)的領(lǐng)域知識(shí),需要針對(duì)對(duì)應(yīng)實(shí)體類型的特點(diǎn)進(jìn)行設(shè)計(jì)。例如,在人名識(shí)別任務(wù)中,一個(gè)中文人名本身的顯著特點(diǎn)是一般由姓和一兩個(gè)漢字組成,并且人名的上下文也有一些規(guī)律,如“×××教授”“他叫×××”。在有了高質(zhì)量的標(biāo)注語料的基礎(chǔ)上,合適的特征設(shè)計(jì)是得到好的序列標(biāo)注模型效果的又一重要保障。 對(duì)于序列標(biāo)注模型,一般我們對(duì)需要識(shí)別的目標(biāo)字符串片段(實(shí)體)通過SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)標(biāo)注體系進(jìn)行標(biāo)注。命名實(shí)體標(biāo)注由實(shí)體的起始字符(B)、中間字符(I)、結(jié)束字符(E)、單獨(dú)成實(shí)體的字符(S)、其他字符(O)等組成,如圖2所示。

圖2 命名實(shí)體標(biāo)注

為了區(qū)分實(shí)體的類型,會(huì)在標(biāo)注體系上帶上對(duì)應(yīng)的類型標(biāo)簽,例如ORG-B、ORG-I、ORG-E。 在實(shí)體抽取中,我們最常用的基于統(tǒng)計(jì)的序列標(biāo)注學(xué)習(xí)模型是HMM、CRF。其中,HMM描述由隱藏的隱馬爾可夫隨機(jī)生成觀測(cè)序列的聯(lián)合分布的P(X,Y)過程,屬于生成模型(Generative Model),CRF則是描述一組輸入隨機(jī)變量條件下另一組構(gòu)成馬爾可夫隨機(jī)場(chǎng)的數(shù)據(jù)變量的條件概率分布P(Y|X),屬于判別模型(Discrimination Model)。 以HMM為例,模型可形式化表示為λ= (A,B,π),設(shè)I是長度為T的狀態(tài)序列,O是對(duì)應(yīng)長度的觀測(cè)序列,M為所有可能的觀測(cè)數(shù)(對(duì)應(yīng)于詞典集合大?。琋為所有狀態(tài)數(shù)(對(duì)應(yīng)標(biāo)注的類別數(shù)),A是狀態(tài)轉(zhuǎn)移矩陣:

其中:

aij表示在時(shí)刻t處于qi的條件下在時(shí)刻t+1轉(zhuǎn)移到qj的概率。 B是觀測(cè)概率矩陣:

其中:

π是初始狀態(tài)概率向量:

其中:

πi表示在時(shí)刻t=1處于狀態(tài)qi的概率。 HMM模型的參數(shù)學(xué)習(xí)即學(xué)習(xí)上面的A,B,π矩陣,有很多實(shí)現(xiàn)方法,比如EM和最大似然估計(jì)。一般在語料充足的情況下,為了簡(jiǎn)化過程,采用最大似然估計(jì),例如:

序列標(biāo)注任務(wù)可以抽象為求解給定觀察序列O=(o1,o2,...,oT)和模型λ=(A,B,π),也就是計(jì)算在模型λ下使給定觀測(cè)序列條件概率P(I|O)最大的觀測(cè)序列I=(i1,i2,...,iT),即在給定觀測(cè)序列(即原始字符串文本)中求最有可能的對(duì)應(yīng)的狀態(tài)序列(標(biāo)注結(jié)構(gòu))。一般采用維特比算法,這是一種通過動(dòng)態(tài)規(guī)劃方法求概率最大路徑的算法,一條路徑對(duì)應(yīng)一個(gè)狀態(tài)序列。 定義在時(shí)刻t狀態(tài)為i的所有單個(gè)路徑(i1,i2,…,it)中概率最大值為:

可以得到變量δ的遞推公式:

定義在時(shí)刻t狀態(tài)為i的所有單個(gè)路徑(i1,i2,…,it-1,i)中概率最大的路徑的第t-1個(gè)節(jié)點(diǎn)為:

維特比算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,...,N之后,通過上述遞推公式,得到最優(yōu)序列。 CRF算法與維特比算法類似,其得到在各個(gè)位置上的非規(guī)范化概率的最大值,同時(shí)記錄該路徑:

基于深度學(xué)習(xí)的方法

在上面介紹用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法構(gòu)造特征的時(shí)候,我們發(fā)現(xiàn)實(shí)體在原始文本中的上下文特征非常重要。構(gòu)建上下文特征需要大量的領(lǐng)域知識(shí),且要在特征工程上下不少功夫。隨著深度學(xué)習(xí)的方法在自然語言處理上的廣泛應(yīng)用,構(gòu)建上下文特征開始變得簡(jiǎn)單了。深度學(xué)習(xí)的方法直接以詞/字向量作為輸入,一些模型(如RNN、Transformer等)本身就能很好地學(xué)習(xí)到上下文信息,并且不需要專門設(shè)計(jì)特征來捕捉各種語義信息,相比傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,性能都得到了顯著提高。這一類模型的通用結(jié)構(gòu)基本都是一個(gè)深度神經(jīng)網(wǎng)絡(luò)+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基于字或詞輸入(一般來說,基于字的模型性能更加優(yōu)秀,它可以有效解決OOV問題)。這個(gè)DNN模型可以學(xué)習(xí)上下文語義特征、預(yù)測(cè)各個(gè)位置上輸出各個(gè)標(biāo)簽的概率,然后再接入CRF層來學(xué)習(xí)各標(biāo)簽之間的依賴關(guān)系,得到最終的標(biāo)注結(jié)果。② 關(guān)系抽取關(guān)系抽取的目標(biāo)是抽取兩個(gè)或者多個(gè)實(shí)體間的語義關(guān)系,從而使得知識(shí)圖譜真正成為一張圖。關(guān)系抽取的研究是以MUC(Message Understanding Conference)評(píng)測(cè)會(huì)議和后來取代MUC的ACE(Automatic Content Extraction)評(píng)測(cè)會(huì)議為主線進(jìn)行的。ACE會(huì)議會(huì)提供測(cè)評(píng)數(shù)據(jù),現(xiàn)在許多先進(jìn)的算法已經(jīng)被提出。 一般關(guān)系抽取的順序是,先識(shí)別實(shí)體,再抽取實(shí)體之間可能存在的關(guān)系。其實(shí)也可以把實(shí)體抽取、關(guān)系抽取聯(lián)合在一起同時(shí)完成。目前,關(guān)系抽取方法可以分為基于模板的關(guān)系抽取和基于監(jiān)督學(xué)習(xí)的關(guān)系抽取兩種方法。

基于模板的關(guān)系抽取

基于模板的關(guān)系抽取,即由人工設(shè)計(jì)模板,再結(jié)合語言學(xué)知識(shí)和具體關(guān)系的語料特點(diǎn),采用boot-strap思路到語料里匹配并進(jìn)行抽取關(guān)系。這種方法適用于小規(guī)模、特定領(lǐng)域任務(wù)冷啟動(dòng)時(shí)的關(guān)系抽取,這種場(chǎng)景下效果比較穩(wěn)定。

基于監(jiān)督學(xué)習(xí)的關(guān)系抽取

基于監(jiān)督學(xué)習(xí)的關(guān)系抽取方法一般把關(guān)系抽取任務(wù)當(dāng)作一系列的分類問題處理。即基于大規(guī)模的標(biāo)注語料,針對(duì)實(shí)體所在的句子訓(xùn)練有監(jiān)督的分類模型。分類模型有很多,例如統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法SVM及深度學(xué)習(xí)方法(如CNN)等。 傳統(tǒng)的機(jī)器學(xué)習(xí)方法重點(diǎn)在特征選擇上,除了實(shí)體本身的詞特征,還包括實(shí)體詞本身、實(shí)體類型、兩個(gè)實(shí)體間的詞以及實(shí)體距離等特征。很多研究都引入了依存句法特征,用以引入實(shí)體間的線性依賴關(guān)系?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法則不需要人工構(gòu)建各種特征,輸入一般只要包括句子中的詞及其位置的向量表示特征。目前基于深度學(xué)習(xí)的關(guān)系抽取方法可以分為流水線方法(Pipeline)和聯(lián)合抽取方法(Jointly)。前者是將實(shí)體識(shí)別和關(guān)系抽取作為兩個(gè)前后依賴的分離過程;后者則把兩個(gè)方法相結(jié)合,在統(tǒng)一模型中同時(shí)完成,從而避免流水線方法中存在的錯(cuò)誤累計(jì)問題。 在經(jīng)典的深度學(xué)習(xí)關(guān)系抽取方法中,輸入層采用的就是詞、位置信息,將在Embedding層得到的向量作為模型的輸入,經(jīng)過一個(gè)BI-LSTM層和Attention層,輸出得到各個(gè)關(guān)系的概率,如圖3所示。

圖3 經(jīng)典深度學(xué)習(xí)關(guān)系抽取模型架構(gòu)

③ 知識(shí)融合通過知識(shí)抽取,我們得到大量實(shí)體(屬性)和關(guān)系,但是由于描述、寫法的不同,結(jié)果中存在大量冗余和錯(cuò)誤信息,有必要對(duì)這些數(shù)據(jù)進(jìn)行消歧、清洗和整合處理。作為知識(shí)融合的重點(diǎn)技術(shù),實(shí)體鏈接(Entity Linking)的目的是將在文本中抽取得到的實(shí)體對(duì)象鏈接到知識(shí)庫中與之對(duì)應(yīng)的唯一確定的實(shí)體對(duì)象,以實(shí)現(xiàn)實(shí)體消歧和共指消解。 實(shí)體消歧(Entity Disambiguation)專門用于解決同名實(shí)體的歧義問題,最簡(jiǎn)單的方法是通過實(shí)體的屬性、周邊的詞構(gòu)成特征向量,通過向量的余弦相似度評(píng)估兩個(gè)實(shí)體的相似度。基于這個(gè)思想,我們可以有更多的基于語義的方法來表征目標(biāo)實(shí)體,從而評(píng)估兩個(gè)實(shí)體是否是同一個(gè)。 共指消解(Entity Resolution)是指解決多個(gè)不同寫法的實(shí)體指向同一個(gè)實(shí)體的問題。一般這類問題可以參考實(shí)體消歧方法解決,也可以具體問題具體分析,通過一些規(guī)則方法解決。2. 知識(shí)推理知識(shí)推理是基于現(xiàn)有的知識(shí)圖譜結(jié)構(gòu),進(jìn)一步挖掘隱含的知識(shí),用來補(bǔ)全現(xiàn)有知識(shí)圖譜屬性、關(guān)系,從而發(fā)現(xiàn)新的知識(shí),拓展和豐富圖譜。例如可以通過推理發(fā)現(xiàn)新屬性,如由已知實(shí)體的出生年月屬性推理出年齡;也可以發(fā)現(xiàn)新關(guān)系,例如,已知(A,股東,B公司)、(C,股東,B公司)可以推理得出(A,合作伙伴,C)。知識(shí)推理的方法可以分為兩大類:基于邏輯的推理和基于圖的推理。① 基于邏輯的推理基于邏輯的推理主要包括一階謂詞邏輯(First Order Logic)推理、描述邏輯(Description Logic)推理。一階謂詞對(duì)應(yīng)著知識(shí)庫里的實(shí)體對(duì)象和關(guān)系,通過謂詞之間的“與”和“或”的關(guān)系來表示知識(shí)變遷從而實(shí)現(xiàn)推理。例如通過“媽媽是女人”“女人是人”可以推理得到“媽媽是人”。描述邏輯則是在一階謂詞的基礎(chǔ)上,解決一階謂詞邏輯的表示能力有限的問題,通過TBox(Terminology Box)和ABox(Assertion Box),可以將知識(shí)圖譜中復(fù)雜的實(shí)體關(guān)系推理轉(zhuǎn)化為一致性的檢驗(yàn)問題,從而簡(jiǎn)化推理。② 基于圖的推理基于圖的推理方法,主要借助圖的結(jié)構(gòu)特征,通過路徑游走的方法,如Path Ranking算法和神經(jīng)網(wǎng)絡(luò)圖向量表示方法,進(jìn)行基于圖的推理。Path Ranking算法的基本思想是從圖譜的一個(gè)節(jié)點(diǎn)出發(fā),經(jīng)過邊在圖上游走,如果能夠通過一個(gè)路徑到達(dá)目標(biāo)節(jié)點(diǎn),則推測(cè)源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)存在關(guān)系。神經(jīng)網(wǎng)絡(luò)圖向量表示方法則是對(duì)通過向量表示后的圖節(jié)點(diǎn)、關(guān)系進(jìn)行相似度運(yùn)算,推理節(jié)點(diǎn)之間是否存在關(guān)系。3. 知識(shí)圖譜存儲(chǔ)知識(shí)圖譜中的信息可以用RDF結(jié)構(gòu)表示,它的主要組成成分是三元組,主要包括實(shí)體及其屬性、關(guān)系三類元素。在實(shí)際應(yīng)用中,按照底層數(shù)據(jù)庫的存儲(chǔ)方式不同,可以分成基于表結(jié)構(gòu)的存儲(chǔ)和基于圖結(jié)構(gòu)的存儲(chǔ)。基于表結(jié)構(gòu)的存儲(chǔ)可以理解為一般的關(guān)系型數(shù)據(jù)庫,常見的如MySQL、Oracle,基于圖存儲(chǔ)的數(shù)據(jù)庫常見的有Neo4j、OrientDB、GraphDB等。① 基于表結(jié)構(gòu)的存儲(chǔ)基于表結(jié)構(gòu)的知識(shí)圖譜存儲(chǔ)利用二維數(shù)據(jù)表對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行存儲(chǔ),有3種常見的設(shè)計(jì)方案:基于三元組的存儲(chǔ)、基于類型表的存儲(chǔ)和基于關(guān)系型數(shù)據(jù)庫的存儲(chǔ)。

基于三元組的存儲(chǔ)

因?yàn)橹R(shí)圖譜可以由三元組描述,所以我們可以把知識(shí)圖譜轉(zhuǎn)化成三元組的描述方式,將其放到一張數(shù)據(jù)表中。例如可以類似表1所示的形式。

表1 三元組存儲(chǔ)示例

這種存儲(chǔ)的優(yōu)點(diǎn)很明顯,結(jié)構(gòu)比較簡(jiǎn)單,可以通過再加一些字段來增強(qiáng)對(duì)關(guān)系的信息的描述,例如區(qū)分是屬性還是關(guān)系。其缺點(diǎn)也很明顯:首先,這樣有很高的冗余,存儲(chǔ)開銷很大,其次,因修改、刪除和更新操作帶來的操作開銷也很大;最后,由于所有的知識(shí)都是以一行一個(gè)三元組的方式存儲(chǔ)的,因此所有的復(fù)雜查詢都要拆分為對(duì)三元組的查找才能得到答案。

基于類型表的存儲(chǔ)

針對(duì)上述方案存在的缺點(diǎn),可以為每一種實(shí)體類型設(shè)計(jì)一張數(shù)據(jù)庫表,把所有同一類型的實(shí)體都放在同一張表中,用表的字段來表示實(shí)體的屬性/關(guān)系。這種方案可解決上面存儲(chǔ)簡(jiǎn)單、冗余度高的問題,但是缺點(diǎn)也很明顯:首先,表字段必須事先確定,所以要求窮舉實(shí)體的屬性/關(guān)系,且無法新增(否則需要修改表結(jié)構(gòu));其次,因?yàn)閷傩?關(guān)系都是存儲(chǔ)在特定列中的,所以無法支持對(duì)不確定類型的屬性和關(guān)系的查找;最后,因?yàn)閿?shù)據(jù)按照類型放在對(duì)應(yīng)表中,所以在查詢之前就需要事先知道實(shí)體的類型。

基于關(guān)系型數(shù)據(jù)庫存儲(chǔ)

關(guān)系型數(shù)據(jù)庫通過表的屬性來實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的描述。我們可以在第二種方案的基礎(chǔ)上設(shè)計(jì)實(shí)體表(用于存儲(chǔ)實(shí)體屬性)、關(guān)系表(用于存儲(chǔ)實(shí)體間的關(guān)系),這一定程度上可以解決表結(jié)構(gòu)固定、無法新增關(guān)系的問題,因?yàn)橐话阄覀冋J(rèn)為實(shí)體的屬性可以在Schema設(shè)計(jì)時(shí)事先枚舉完。例如表7-1,可以拆分為3張表(見表2、表3和表4)。

表2 組織機(jī)構(gòu)表

表3 人物表

表4 關(guān)系表

4. 基于圖結(jié)構(gòu)的存儲(chǔ)知識(shí)圖譜本身就是圖結(jié)構(gòu)的,實(shí)體可以看作圖的節(jié)點(diǎn),關(guān)系可以看作圖的關(guān)系,基于圖的方式存儲(chǔ)知識(shí),可以直接、準(zhǔn)確地反映知識(shí)圖譜內(nèi)部結(jié)構(gòu),有利于知識(shí)的查詢、游走?;趫D譜的結(jié)構(gòu)進(jìn)行存儲(chǔ),可以借用圖論的相關(guān)算法進(jìn)行知識(shí)推理。常見的圖數(shù)據(jù)庫有Neo4j、OrientDB、GraphDb、GDB(阿里云)等。 Neo4j是一個(gè)開源的圖數(shù)據(jù)庫,它將結(jié)構(gòu)化的數(shù)據(jù)以圖的形式存儲(chǔ),基于Java實(shí)現(xiàn)(現(xiàn)在也提供Python接口),是一個(gè)具備完全事務(wù)特性的高性能數(shù)據(jù)系統(tǒng),具有成熟數(shù)據(jù)庫的所有特性。Neo4j分為商業(yè)版和社區(qū)版。其中社區(qū)版是開源的,是一個(gè)本地?cái)?shù)據(jù)庫;商業(yè)版則實(shí)現(xiàn)了分布式功能,能夠?qū)⒍嗯_(tái)機(jī)器構(gòu)造成數(shù)據(jù)庫集群來提供服務(wù)。它采用的查詢語言是cypher,可以通過Neo4j實(shí)現(xiàn)知識(shí)圖譜節(jié)點(diǎn)、關(guān)系的創(chuàng)建(create命令)和查詢(match命令)。 Neo4j在Linux上的安裝非常簡(jiǎn)單,到官網(wǎng)上下載對(duì)應(yīng)的安裝包,解壓后安裝到bin目錄,然后通過./neo4j start命令啟動(dòng)。我們可以在: http://localhost:7474/browser/ 訪問可視化界面(見圖4),可以在這個(gè)Web頁面上通過cypher和圖數(shù)據(jù)庫進(jìn)行交互。

圖4 Neo4j Web可視化界面 阿里巴巴內(nèi)部也研發(fā)了圖數(shù)據(jù)庫用于存儲(chǔ)知識(shí)圖譜數(shù)據(jù),如GDB、iGraph等,其中GDB(Graph Database,圖數(shù)據(jù)庫)是由阿里云自主研發(fā)的,是一種支持Property Graph圖模型、用于處理高度連接數(shù)據(jù)查詢與存儲(chǔ)的實(shí)時(shí)、可靠的在線數(shù)據(jù)庫。它支持Apache TinkerPop Gremlin查詢語言,可以快速構(gòu)建基于高度連接的數(shù)據(jù)集的應(yīng)用程序。GDB非常適合用于社交網(wǎng)絡(luò)、欺詐檢測(cè)、推薦引擎、實(shí)時(shí)圖譜、網(wǎng)絡(luò)/IT運(yùn)營這類需要用到高度互連數(shù)據(jù)集的場(chǎng)景。目前GDB正處于公測(cè)期間,阿里巴巴內(nèi)部很多知識(shí)圖譜業(yè)務(wù)都基于GDB存儲(chǔ),它具備如下優(yōu)勢(shì):

標(biāo)準(zhǔn)圖查詢語言:支持屬性圖,高度兼容Gremlin圖查詢語言。

高度優(yōu)化的自研引擎:高度優(yōu)化的自研圖計(jì)算層和存儲(chǔ)層,通過云盤多副本方案保障數(shù)據(jù)超高可靠性,支持ACID事務(wù)。

服務(wù)高可用:支持高可用實(shí)例,單節(jié)點(diǎn)出故障后業(yè)務(wù)會(huì)迅速轉(zhuǎn)移到其他節(jié)點(diǎn),從而保障了業(yè)務(wù)的連續(xù)性。

易運(yùn)維:提供備份恢復(fù)、自動(dòng)升級(jí)、監(jiān)控告警、故障切換等豐富的運(yùn)維功能,大幅降低運(yùn)維成本。

04

知識(shí)表示

知識(shí)表示是指在不同的語義環(huán)境下有不同的含義,例如在圖譜構(gòu)建階段,知識(shí)表示可以認(rèn)為是基于RDF用三元組形式,如“<實(shí)體,屬性,值>”或者“<實(shí)體,關(guān)系,實(shí)體>”(也有描述為<主語,謂詞,賓語>)來表征知識(shí)圖譜的語義信息的。在知識(shí)圖譜接入上層應(yīng)用場(chǎng)景后,尤其是隨著深度學(xué)習(xí)方法的廣泛采用,如何將知識(shí)圖譜和深度學(xué)習(xí)模型融合,借助知識(shí)圖譜引入領(lǐng)域知識(shí)來提升深度學(xué)習(xí)模型性能,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。 本節(jié)將重點(diǎn)介紹基于知識(shí)表示的學(xué)習(xí)方法,介紹如何將知識(shí)圖譜中的高度稀疏的實(shí)體、關(guān)系表示成一個(gè)低維、稠密向量。1. 距離模型結(jié)構(gòu)表示(Structured Embedding,SE),將每個(gè)實(shí)體用d維的向量表示,所有實(shí)體被投影到同一個(gè)d維向量空間中,同時(shí),為了區(qū)分關(guān)系的有向特征,為每個(gè)關(guān)系r定義了2個(gè)矩陣Mr,1,Mr,2∈Rd*d,用于三元組中頭實(shí)體和尾實(shí)體的投影操作,將頭實(shí)體、尾實(shí)體投影到關(guān)系r的空間中來計(jì)算兩個(gè)向量的距離,公式為:

用以反映2個(gè)實(shí)體在關(guān)系r下的語義相關(guān)度,距離越小,說明這2個(gè)實(shí)體存在這種關(guān)系的可能性越大。然而該模型有一個(gè)重要缺陷,它使用頭、尾兩個(gè)不同的矩陣進(jìn)行投影,這個(gè)矩陣相互獨(dú)立沒有協(xié)同,往往無法精確刻畫兩個(gè)實(shí)體基于關(guān)系的語義聯(lián)系。為了解決這個(gè)問題,后續(xù)出現(xiàn)了單層神經(jīng)網(wǎng)絡(luò)模型(Single Layer Model,SLM)、語義匹配能量模型(Semantic Matching Energy,SME)等方法,如RESCAL。RESACL模型是一個(gè)基于矩陣分解的模型,在該模型中,將整個(gè)知識(shí)圖譜編碼為一個(gè)三維張量X,如果三元組存在,則Xhrt=1,否則為0。張量分解的目標(biāo)是要將每個(gè)三元組對(duì)應(yīng)的張量分解為實(shí)體和關(guān)系,使得Xhrt盡量接近lhMrlt,函數(shù)可表示為:

2. 翻譯模型自從Mikolov等人于2013年提出word2vec模型開始,表示學(xué)習(xí)Embedding在自然語言處理領(lǐng)域受到廣泛關(guān)注,該模型發(fā)現(xiàn)在詞向量空間中平移(加減)不變現(xiàn)象,即:

其中C(w)表示w通過word2vec得到的詞向量。受這類類比推理實(shí)驗(yàn)啟發(fā),Bordes等人提出了TransE模型,之后又出現(xiàn)多種衍生模型,如TransH、TransR等。TransE將知識(shí)庫中的關(guān)系看作實(shí)體間的平移向量,對(duì)于每個(gè)三元組,TransE希望:

即期望頭節(jié)點(diǎn)向量沿關(guān)系平移后,盡量和尾節(jié)點(diǎn)向量重合(見圖5)。

圖5 TransE 模型

模型的損失函數(shù)定義如下:

“||”表示取模運(yùn)算,如L2距離。 在實(shí)際學(xué)習(xí)過程中,為了增強(qiáng)模型知識(shí)表示的區(qū)分能力,TransE采用了最大間隔,目標(biāo)函數(shù)為:

其中,S是正確的三元組集合,S-是錯(cuò)誤的三元組集合,γ為正確三元組得分和錯(cuò)誤三元組得分之間的間隔距離,是一個(gè)超參數(shù)。S-的產(chǎn)生與負(fù)樣本的生成方式不同,不通過直接隨機(jī)采樣三元組,而是將S中每一個(gè)三元組的頭實(shí)體、關(guān)系、尾實(shí)體其中之一隨機(jī)替換成其他實(shí)體或關(guān)系來構(gòu)造。 TransE模型簡(jiǎn)單有效,后續(xù)很多知識(shí)表示學(xué)習(xí)方法都是以此為代表進(jìn)行拓展的。例如TransH模型,為了解決TransE在處理1-N、N-1、N-N復(fù)雜關(guān)系時(shí)的局限性,提出讓一個(gè)實(shí)體在不同關(guān)系下?lián)碛胁煌谋硎?。另外,雖然TransH模型使得每個(gè)實(shí)體在不同關(guān)系下?lián)碛辛瞬煌谋硎?,但是它仍然假設(shè)實(shí)體和關(guān)系處于統(tǒng)一語義空間中,這和我們一般的認(rèn)知有點(diǎn)不同,于是有學(xué)者提出了TransR模型。TransR模型首先通過一個(gè)投影矩陣Mr把實(shí)體投影到關(guān)系的語義空間,然后再進(jìn)行關(guān)系類比推理(見圖6):

圖6 各種翻譯模型

05

電商知識(shí)圖譜應(yīng)用

知識(shí)圖譜提供了一種更好的組織、管理和利用海量信息的方式,描述了現(xiàn)實(shí)世界中的概念、實(shí)體以及它們之間的關(guān)系。自從谷歌提出知識(shí)圖譜并應(yīng)用在搜索引擎中,用以提升搜索引擎使用體驗(yàn),提高搜索引擎質(zhì)量以后,知識(shí)圖譜在各種垂直領(lǐng)域場(chǎng)景中都扮演了重要的角色。 隨著消費(fèi)升級(jí),行業(yè)會(huì)場(chǎng)+爆款的導(dǎo)購模式已經(jīng)無法滿足消費(fèi)者心智,人們對(duì)貨品的需求逐漸轉(zhuǎn)化為對(duì)場(chǎng)景的需求。通過場(chǎng)景重新定義貨品的需求產(chǎn)生,場(chǎng)景運(yùn)營平臺(tái)應(yīng)運(yùn)而生。場(chǎng)景運(yùn)營平臺(tái)通過對(duì)商品知識(shí)的挖掘,將具有共同特征的商品通過算法模型聚合在一起,形成事實(shí)上的跨品類商品搭配。在算法端完成場(chǎng)景-商品知識(shí)圖譜的建設(shè)后,通過當(dāng)前訴求挖掘消費(fèi)者深層次訴求,推薦某個(gè)場(chǎng)景下互相搭配的商品,給予消費(fèi)者對(duì)應(yīng)場(chǎng)景下一站式的購物體驗(yàn),達(dá)到鼓勵(lì)消費(fèi)者跨類目購買行為及提升客單價(jià)的目的。例如在阿里電商平臺(tái),導(dǎo)購場(chǎng)景就有了很好的應(yīng)用,并取得了不錯(cuò)的效果。 1688團(tuán)隊(duì)在阿里內(nèi)部數(shù)據(jù)和算法基建的基礎(chǔ)上,基于B類商品特征,構(gòu)建了自己的商品知識(shí)圖譜,以CPV的方式表征一個(gè)商品,具體商品表征如圖7所示。

圖7 商品CPV表征示意圖

任何知識(shí)圖譜應(yīng)用的構(gòu)建,整體上都要經(jīng)歷如下幾個(gè)步驟:文本等非結(jié)構(gòu)化或半結(jié)構(gòu)化信息→結(jié)構(gòu)化的知識(shí)圖譜→知識(shí)圖譜表征→特定應(yīng)用場(chǎng)景。1688的商品知識(shí)圖譜,在阿里通用的電商N(yùn)LP技術(shù)的基礎(chǔ)上,完成了半結(jié)構(gòu)化信息向結(jié)構(gòu)化的知識(shí)圖譜轉(zhuǎn)化的步驟,但是中間存在大量質(zhì)量較差、語義模糊甚至錯(cuò)誤的數(shù)據(jù)。為了優(yōu)化這部分?jǐn)?shù)據(jù),阿里做了大量的工作,包括實(shí)體合并、消歧、長尾數(shù)據(jù)裁剪等。 針對(duì)初步加工過的數(shù)據(jù),還需要大量的人工來標(biāo)注清洗,以發(fā)揮數(shù)據(jù)的價(jià)值。而數(shù)據(jù)標(biāo)注清洗這種累活一般是找專門的數(shù)據(jù)標(biāo)注公司外包完成的。為了減少專門標(biāo)注的成本,我們采用了“以戰(zhàn)養(yǎng)兵”的思路,讓運(yùn)營直接使用這份經(jīng)過初步加工的數(shù)據(jù),通過收集運(yùn)營的操作數(shù)據(jù),快速反饋到算法模型中并不斷優(yōu)化結(jié)果,形成運(yùn)營-數(shù)據(jù)的相互反饋,如圖8所示,讓工具越用越順手,越用越好。

圖8 主題會(huì)場(chǎng)搭建流程示意圖

具體的主題錄入方式是:運(yùn)營指定一個(gè)主題場(chǎng)景,比如婚慶主題,在指定主題下涵蓋商品的類目、屬性、屬性值。比如列舉一組配置,可以搭配后臺(tái)配置截圖。通過行業(yè)運(yùn)營專家的經(jīng)驗(yàn)將主題和相應(yīng)的商品圖譜關(guān)聯(lián)起來,我們可以明確哪些CPV數(shù)據(jù)存在業(yè)務(wù)關(guān)聯(lián),以及運(yùn)營認(rèn)為哪些數(shù)據(jù)是有效的。除了主題數(shù)據(jù)的人工錄入,我們還配套了相關(guān)的自動(dòng)化頁面搭建方案。 電商經(jīng)常需要做促銷活動(dòng),活動(dòng)會(huì)場(chǎng)頁面的制作需要投入大量人力,常見的活動(dòng)頁面如圖9所示。

圖9 常見電商促銷活動(dòng)頁面圖

這種活動(dòng)類導(dǎo)購頁面的搭建,核心是站在買家的角度幫助他們發(fā)現(xiàn)和選擇商品,如圖10所示。其中,什么商品、如何挑選、怎樣呈現(xiàn)就是導(dǎo)購頁面包含的核心要素和業(yè)務(wù)流程。映射到技術(shù)領(lǐng)域,則會(huì)涉及建立頁面、數(shù)據(jù)分析、投放策略的三個(gè)方面。

圖10 活動(dòng)類導(dǎo)購頁面搭建流程示意圖

1688在活動(dòng)頁面制作方面沉淀多年,有眾多實(shí)用的技術(shù)和工具供運(yùn)營使用,如頁面組件化搭建產(chǎn)品(積木盒子、奇美拉)、指標(biāo)選品工具(選品庫)、商品排序投放產(chǎn)品(投放平臺(tái))等。這些產(chǎn)品都有各自的細(xì)分業(yè)務(wù)域,運(yùn)營通常需要跳轉(zhuǎn)到多個(gè)平臺(tái)進(jìn)行配置,才能完成一張活動(dòng)頁面的搭建,整體流程如圖11所示。

圖11 活動(dòng)頁面搭建平臺(tái)示意圖

這就像是辦證件,A窗口讓你去B窗口登記,B窗口讓你去C窗口填表。我們都圍著一個(gè)個(gè)的“窗口”轉(zhuǎn),這是一種以資源為中心的工作方式。以前讓用戶圍繞著資源轉(zhuǎn),是為了最大化資源的使用效率,但是在今天這個(gè)人力成本高的時(shí)代,需要從資源視角轉(zhuǎn)向用戶視角,讓資源圍著用戶轉(zhuǎn),這樣可以最大化價(jià)值流動(dòng)效率。 我們通過幾個(gè)月的努力,將十余個(gè)系統(tǒng)打通,實(shí)現(xiàn)了數(shù)據(jù)源標(biāo)準(zhǔn)化方案、數(shù)據(jù)頁面綁定方案、頁面自動(dòng)多端搭建方案、投放自動(dòng)化方案等,形成了如圖12所示的產(chǎn)品體系。

圖12 會(huì)場(chǎng)搭建產(chǎn)品體系示意圖

通過將系統(tǒng)打通,使得運(yùn)營搭建一個(gè)頁面的配置工作量減少了83.2%。而在剩余的16.8%的工作里,有87%是選品工作。借助主題會(huì)場(chǎng),我們希望將運(yùn)營選品的工作量也降低50%以上,并借助數(shù)據(jù)和算法,實(shí)現(xiàn)智能選品、智能搭建、智能投放。今天的分享就到這里,謝謝大家。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 阿里巴巴
    +關(guān)注

    關(guān)注

    7

    文章

    1638

    瀏覽量

    48208
  • 電商
    +關(guān)注

    關(guān)注

    1

    文章

    468

    瀏覽量

    29151
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7990

原文標(biāo)題:電商知識(shí)圖譜

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為NetMaster開啟運(yùn)營B2B增長新篇章

    “一網(wǎng)一圖一腦”三層智能架構(gòu),可視運(yùn)維基礎(chǔ)上融合AI能力,顛覆傳統(tǒng)運(yùn)維模式,有效實(shí)現(xiàn)降本增效,為運(yùn)營B2B及MSP業(yè)務(wù)創(chuàng)造新機(jī)遇。
    的頭像 發(fā)表于 05-23 17:32 ?362次閱讀

    谷景阿里巴巴國際站正式上線

    在行業(yè)發(fā)展的關(guān)鍵節(jié)點(diǎn),谷景電子取得了重大突破,谷景阿里巴巴國際站正式上線!此次上線聚焦電感領(lǐng)域,旨在為全球客戶提供更較大好的電感產(chǎn)品與服務(wù),也標(biāo)志著谷景電感業(yè)務(wù)國際道路上邁出了關(guān)鍵一步。
    的頭像 發(fā)表于 02-26 09:44 ?434次閱讀

    阿里國際站“八先過?!庇?jì)劃助力B2B商家出海

    近日,阿里國際站正式推出了旨在扶持新商家出海的“八先過?!庇?jì)劃,該計(jì)劃涵蓋了八大舉措,全方位助力商家搶占B2B出海先機(jī),延續(xù)出海紅利。 據(jù)了解,“八先過海”計(jì)劃從多個(gè)維度出發(fā),包括加大對(duì)新市場(chǎng)的投入
    的頭像 發(fā)表于 02-19 09:21 ?525次閱讀

    阿里巴巴否認(rèn)投資DeepSeek傳聞

    ,導(dǎo)致阿里巴巴的美股盤前交易中股價(jià)出現(xiàn)了顯著拉升,漲幅一度接近7%,市值也隨之攀升至2381億美元的高位。 然而,針對(duì)這一市場(chǎng)傳言,阿里巴巴方面迅速作出了回應(yīng)。阿里巴巴集團(tuán)副總裁顏喬
    的頭像 發(fā)表于 02-10 09:10 ?568次閱讀

    阿里巴巴否認(rèn)投資DeepSeek

    近日,有傳聞稱阿里巴巴計(jì)劃以100億美元的估值,投資10億美元認(rèn)購中國AI初創(chuàng)企業(yè)DeepSeek的10%股權(quán)。然而,阿里高管顏喬迅速對(duì)此進(jìn)行了否認(rèn),他表示:“同為中國杭州企業(yè),我們?yōu)镈eepSeek的成就鼓掌,但外界流傳的阿里
    的頭像 發(fā)表于 02-08 16:47 ?652次閱讀

    阿里巴巴出售高鑫零售股權(quán),聚焦核心業(yè)務(wù)

    78.7%。 此次出售的股權(quán)交易金額頗為可觀,阿里巴巴子公司及New Retail將有權(quán)就待售股份收取最高金額約131.38億港元,折合每股約1.75港元。這一交易不僅體現(xiàn)了阿里巴巴資本運(yùn)作上的靈活性和決斷力,也為其未來的發(fā)展
    的頭像 發(fā)表于 01-02 10:54 ?443次閱讀

    阿里巴巴將在美國推出AI商工具PIC COPILOT

    人工智能領(lǐng)域的一次重要嘗試,旨在利用先進(jìn)的AI技術(shù)為美國市場(chǎng)提供更加智能、便捷的服務(wù)。該工具將深度融合阿里巴巴
    的頭像 發(fā)表于 12-06 10:52 ?1023次閱讀

    阿里巴巴整合資源,成立全新商事業(yè)群

    近日,阿里巴巴集團(tuán)迎來了一項(xiàng)重大組織調(diào)整。集團(tuán)CEO吳泳銘通過內(nèi)部郵件正式宣布,將整合國內(nèi)和海外電商業(yè)務(wù),成立全新的商事業(yè)群。這一決策標(biāo)志著阿里巴巴
    的頭像 發(fā)表于 11-22 10:51 ?499次閱讀

    阿里國際推出全球首個(gè)B2B AI搜索引擎Accio

    近日,歐洲科技峰會(huì)Web Summit上,阿里國際正式推出了全球首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品面向全球商家開放,標(biāo)志著阿里國際正式入局當(dāng)前備受矚目的AI S
    的頭像 發(fā)表于 11-15 16:53 ?1197次閱讀

    阿里國際推出B2B領(lǐng)域AI搜索引擎Accio

    近日,阿里國際宣布正式進(jìn)軍AI搜索領(lǐng)域,并面向全球商家推出了首個(gè)B2B領(lǐng)域的AI搜索引擎——Accio。這一創(chuàng)新產(chǎn)品的推出,標(biāo)志著阿里國際電子商務(wù)和人工智能技術(shù)結(jié)合方面邁出了重要一步
    的頭像 發(fā)表于 11-14 11:47 ?879次閱讀

    阿里巴巴國際站首推全流程AI產(chǎn)品

    近日,阿里巴巴國際站正式推出了其首個(gè)全流程AI產(chǎn)品——AI生意助手2.0。這一創(chuàng)新產(chǎn)品的問世,標(biāo)志著阿里巴巴助力中小企業(yè)外貿(mào)經(jīng)營方面邁出了重要一步。
    的頭像 發(fā)表于 10-30 16:12 ?728次閱讀

    阿里巴巴完成雙重主要上市

    8月28日阿里巴巴香港聯(lián)交所主板主要上市,成為港交所、紐交所雙重主要上市的公司。如今,阿里巴巴完成雙重主要上市。 此外,有投資機(jī)構(gòu)認(rèn)為阿里巴巴
    的頭像 發(fā)表于 08-29 16:06 ?616次閱讀

    阿里巴巴季報(bào)出爐 阿里云二季度營收增長6%

    阿里巴巴季報(bào)出爐我們一起來圍觀一下,根據(jù)阿里巴巴集團(tuán)發(fā)布的截至2024年6月30日的第二季度經(jīng)營業(yè)績數(shù)據(jù)顯示,阿里巴巴該季度營收達(dá)到2432.4億元,而上年同期營收2341.56億元,同比增4%;經(jīng)
    的頭像 發(fā)表于 08-16 16:45 ?773次閱讀

    阿里Qwen2-Math系列震撼發(fā)布,數(shù)學(xué)推理能力領(lǐng)跑全球

    阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型,這一系列模型基于其強(qiáng)大的Qwen2 LLM構(gòu)建,專為數(shù)學(xué)解題而生,展現(xiàn)了前所未有的數(shù)學(xué)推理能力。Qwen2-Math家族包括1.5
    的頭像 發(fā)表于 08-12 15:19 ?1176次閱讀

    阿里巴巴AI賦能海外擴(kuò)張新篇章

    中國巨頭阿里巴巴集團(tuán)正積極重啟并加速其海外擴(kuò)張戰(zhàn)略,以應(yīng)對(duì)國內(nèi)市場(chǎng)競(jìng)爭(zhēng)加劇的挑戰(zhàn)。此次擴(kuò)張的一大亮點(diǎn)在于,
    的頭像 發(fā)表于 07-12 17:56 ?1341次閱讀
    主站蜘蛛池模板: 望江县| 南华县| 克什克腾旗| 昌宁县| 桐梓县| 西乡县| 龙江县| 宁阳县| 双江| 广南县| 平乐县| 青川县| 泰安市| 田林县| 林西县| 上犹县| 乐平市| 麻城市| 彩票| 双峰县| 理塘县| 台湾省| 涟水县| 连山| 武隆县| 台东市| 依安县| 山阳县| 和政县| 怀化市| 郧西县| 大方县| 丰宁| 环江| 卫辉市| 香港| 高唐县| 吴川市| 台前县| 灵武市| 石城县|