女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)研究組推出一套全新中文分詞工具包pkuseg

MqC7_CAAI_1981 ? 來(lái)源:lq ? 2019-01-11 15:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

日前,北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)研究組研制推出一套全新中文分詞工具包 pkuseg,這一工具包有如下三個(gè)特點(diǎn):

高分詞準(zhǔn)確率。相比于其他的分詞工具包,當(dāng)使用相同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),pkuseg 可以取得更高的分詞準(zhǔn)確率。

多領(lǐng)域分詞。不同于以往的通用中文分詞工具,此工具包同時(shí)致力于為不同領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。根據(jù)待分詞文本的領(lǐng)域特點(diǎn),用戶可以自由地選擇不同的模型。而其他現(xiàn)有分詞工具包,一般僅提供通用領(lǐng)域模型。

支持用戶自訓(xùn)練模型。支持用戶使用全新的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。

各項(xiàng)性能對(duì)比如下:

與 jieba、THULAC 等國(guó)內(nèi)代表分詞工具包進(jìn)行性能比較:

考慮到 jieba 分詞和 THULAC 工具包等并沒(méi)有提供細(xì)領(lǐng)域的預(yù)訓(xùn)練模型,為了便于比較,開(kāi)發(fā)團(tuán)隊(duì)重新使用它們提供的訓(xùn)練接口在細(xì)領(lǐng)域的數(shù)據(jù)集上進(jìn)行訓(xùn)練,用訓(xùn)練得到的模型進(jìn)行中文分詞。他們選擇 Linux 作為測(cè)試環(huán)境,在新聞數(shù)據(jù)(MSRA)、混合型文本(CTB8)、網(wǎng)絡(luò)文本(WEIBO)數(shù)據(jù)上對(duì)不同工具包進(jìn)行了準(zhǔn)確率測(cè)試。在此過(guò)程中,他們使用第二屆國(guó)際漢語(yǔ)分詞評(píng)測(cè)比賽提供的分詞評(píng)價(jià)腳本,其中 MSRA 與 WEIBO 使用標(biāo)準(zhǔn)訓(xùn)練集測(cè)試集劃分,CTB8 采用隨機(jī)劃分。對(duì)于不同的分詞工具包,訓(xùn)練測(cè)試數(shù)據(jù)的劃分都是一致的;即所有的分詞工具包都在相同的訓(xùn)練集上訓(xùn)練,在相同的測(cè)試集上測(cè)試。

以下是在不同數(shù)據(jù)集上的對(duì)比結(jié)果:

同時(shí),為了比較細(xì)領(lǐng)域分詞的優(yōu)勢(shì),開(kāi)發(fā)團(tuán)隊(duì)比較了他們的方法和通用分詞模型的效果對(duì)比。其中 jieba 和 THULAC 均使用了軟件包提供的、默認(rèn)的分詞模型:

從結(jié)果上來(lái)看,當(dāng)用戶了解待分詞文本的領(lǐng)域時(shí),細(xì)領(lǐng)域分詞可以取得更好的效果。然而 jieba 和 THULAC 等分詞工具包僅提供了通用領(lǐng)域模型。

目前,該工具包已經(jīng)在 GitHub 開(kāi)源,編譯、安裝和使用說(shuō)明如下。

編譯和安裝

1. 通過(guò) pip 下載(自帶模型文件)

pip install pkuseg之后通過(guò) import pkuseg 來(lái)引用

2. 從 github 下載(需要下載模型文件,見(jiàn)預(yù)訓(xùn)練模型)

將 pkuseg 文件放到目錄下,通過(guò) import pkuseg 使用模型需要下載或自己訓(xùn)練。

使用方式

1. 代碼示例

代碼示例1 使用默認(rèn)模型及默認(rèn)詞典分詞import pkusegseg = pkuseg.pkuseg() #以默認(rèn)配置加載模型text = seg.cut('我愛(ài)北京***') #進(jìn)行分詞print(text)

代碼示例2 設(shè)置用戶自定義詞典import pkuseglexicon = ['北京大學(xué)', '北京***'] #希望分詞時(shí)用戶詞典中的詞固定不分開(kāi)seg = pkuseg.pkuseg(user_dict=lexicon) #加載模型,給定用戶詞典text = seg.cut('我愛(ài)北京***') #進(jìn)行分詞print(text)

代碼示例3import pkusegseg = pkuseg.pkuseg(model_name='./ctb8') #假設(shè)用戶已經(jīng)下載好了ctb8的模型并放在了'./ctb8'目錄下,通過(guò)設(shè)置model_name加載該模型text = seg.cut('我愛(ài)北京***') #進(jìn)行分詞print(text)

代碼示例4import pkusegpkuseg.test('input.txt', 'output.txt', nthread=20) #對(duì)input.txt的文件分詞輸出到output.txt中,使用默認(rèn)模型和詞典,開(kāi)20個(gè)進(jìn)程

代碼示例5import pkusegpkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #訓(xùn)練文件為'msr_training.utf8',測(cè)試文件為'msr_test_gold.utf8',模型存到'./models'目錄下,開(kāi)20個(gè)進(jìn)程訓(xùn)練模型

2. 參數(shù)說(shuō)明

pkuseg.pkuseg(model_name='ctb8', user_dict=[])model_name 模型路徑。默認(rèn)是'ctb8'表示我們預(yù)訓(xùn)練好的模型(僅對(duì)pip下載的用戶)。用戶可以填自己下載或訓(xùn)練的模型所在的路徑如model_name='./models'。user_dict 設(shè)置用戶詞典。默認(rèn)不使用詞典。填'safe_lexicon'表示我們提供的一個(gè)中文詞典(僅pip)。用戶可以傳入一個(gè)包含若干自定義單詞的迭代器。

pkuseg.test(readFile, outputFile, model_name='ctb8', user_dict=[], nthread=10)readFile 輸入文件路徑outputFile 輸出文件路徑model_name 同pkuseg.pkuseguser_dict 同pkuseg.pkusegnthread 測(cè)試時(shí)開(kāi)的進(jìn)程數(shù)

pkuseg.train(trainFile, testFile, savedir, nthread=10)trainFile 訓(xùn)練文件路徑testFile 測(cè)試文件路徑savedir 訓(xùn)練模型的保存路徑nthread 訓(xùn)練時(shí)開(kāi)的進(jìn)程數(shù)

預(yù)訓(xùn)練模型

分詞模式下,用戶需要加載預(yù)訓(xùn)練好的模型。開(kāi)發(fā)團(tuán)隊(duì)提供了三種在不同類型數(shù)據(jù)上訓(xùn)練得到的模型,根據(jù)具體需要,用戶可以選擇不同的預(yù)訓(xùn)練模型。以下是對(duì)預(yù)訓(xùn)練模型的說(shuō)明:

MSRA: 在MSRA(新聞?wù)Z料)上訓(xùn)練的模型。新版本代碼采用的是此模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8: 在CTB8(新聞文本及網(wǎng)絡(luò)文本的混合型語(yǔ)料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO: 在微博(網(wǎng)絡(luò)文本語(yǔ)料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

開(kāi)發(fā)團(tuán)隊(duì)預(yù)訓(xùn)練好其它分詞軟件的模型可以在如下地址下載:

jieba: 待更新

THULAC: 在 MSRA、CTB8、WEIBO、PKU 語(yǔ)料上的預(yù)訓(xùn)練模型,下載地址:https://pan.baidu.com/s/11L95ZZtRJdpMYEHNUtPWXA,提取碼:iv82

其中 jieba 的默認(rèn)模型為統(tǒng)計(jì)模型,主要基于訓(xùn)練數(shù)據(jù)上的詞頻信息,開(kāi)發(fā)團(tuán)隊(duì)在不同訓(xùn)練集上重新統(tǒng)計(jì)了詞頻信息。對(duì)于 THULAC,他們使用其提供的接口進(jìn)行訓(xùn)練(C++版本),得到了在不同領(lǐng)域的預(yù)訓(xùn)練模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:學(xué)界 | 北大開(kāi)源中文分詞工具包 pkuseg

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    恩智浦車(chē)規(guī)級(jí)深度學(xué)習(xí)工具包使新代汽車(chē)應(yīng)用性能提高30倍

    恩智浦半導(dǎo)體推出汽車(chē)車(chē)規(guī)級(jí)深度學(xué)習(xí)工具包eIQ Auto,擴(kuò)展了公司eIQ機(jī)器學(xué)習(xí)產(chǎn)品系列。該工具包
    發(fā)表于 11-06 11:46 ?915次閱讀

    Facebook推出ReAgent AI強(qiáng)化學(xué)習(xí)工具包

    Facebook近日推出ReAgent強(qiáng)化學(xué)習(xí)(reinforcement learning)工具包,首次通過(guò)收集離線反饋(offline feedback)來(lái)實(shí)現(xiàn)策略評(píng)估(policy evaluation)。
    發(fā)表于 10-19 09:38 ?1773次閱讀

    PIC 語(yǔ)言工具包問(wèn)題

    大家好,PIC 我是新手,有個(gè)簡(jiǎn)單的問(wèn)題請(qǐng)教下,就是我導(dǎo)入個(gè)mcp的,mplab會(huì)報(bào)語(yǔ)言工具包不對(duì),這個(gè)要如何處理,因我導(dǎo)的是網(wǎng)上下下
    發(fā)表于 04-19 14:00

    Python人工智能學(xué)習(xí)工具包+入門(mén)與實(shí)踐資料集錦

    ,之后漸漸成為我工作中的第輔助腳本語(yǔ)言,雖然開(kāi)發(fā)語(yǔ)言是C/C++,但平時(shí)的很多文本數(shù)據(jù)處理任務(wù)都交給了Python。這些年來(lái),接觸和使用了很多Python工具包,特別是在文本處理,科
    發(fā)表于 11-22 14:46

    目前常用的自然語(yǔ)言處理開(kāi)源項(xiàng)目/開(kāi)發(fā)包大匯總

    中文詞法分析工具包,具有中文分詞和詞性標(biāo)注功能。開(kāi)發(fā)語(yǔ)言:網(wǎng)址:THULAC:個(gè)高效的
    發(fā)表于 11-26 10:31

    求LabVIEW2014 機(jī)器學(xué)習(xí)工具包

    有哪位大神有l(wèi)abview2014 機(jī)器學(xué)習(xí)工具包啊,分享下,急需!!非常感謝!
    發(fā)表于 03-15 23:08

    中文分詞研究難點(diǎn)-詞語(yǔ)切分和語(yǔ)言規(guī)范

    學(xué)習(xí)模型學(xué)習(xí)詞語(yǔ)切分的規(guī)律(稱為訓(xùn)練),從而實(shí)現(xiàn)對(duì)未知文本的切分。隨著大規(guī)模語(yǔ)料庫(kù)的建立,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的研究和發(fā)展,基于統(tǒng)計(jì)的
    發(fā)表于 09-04 17:39

    愛(ài)特梅爾推出全新的汽車(chē)應(yīng)用開(kāi)發(fā)工具包ATAPMxx

    愛(ài)特梅爾公司 (Atmel Corporation) 宣布推出全新的汽車(chē)應(yīng)用開(kāi)發(fā)工具包ATAPMxx,這是用于愛(ài)特梅爾現(xiàn)有和未來(lái)汽車(chē)產(chǎn)品的單開(kāi)發(fā)平臺(tái)。
    發(fā)表于 10-31 07:43 ?1005次閱讀

    Google Kubernetes機(jī)器學(xué)習(xí)工具包Kubeflow發(fā)布0.1版

    Google自家推出的Kubernetes機(jī)器學(xué)習(xí)工具包Kubeflow終于發(fā)布了0.1版。 Google表示,雖然該項(xiàng)目?jī)H成立5個(gè)多月,但是目前在GitHub上,已經(jīng)有超過(guò)3,000
    發(fā)表于 05-17 08:17 ?1917次閱讀

    Python網(wǎng)頁(yè)爬蟲(chóng),文本處理,科學(xué)計(jì)算機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具

    本文檔的主要內(nèi)容詳細(xì)介紹的是Python工具包合集包括了:網(wǎng)頁(yè)爬蟲(chóng)工具集,文本處理工具集,Python科學(xué)計(jì)算工具包,Python
    發(fā)表于 09-07 17:14 ?39次下載
    Python網(wǎng)頁(yè)爬蟲(chóng),文本處理,科學(xué)<b class='flag-5'>計(jì)算</b>,<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和數(shù)據(jù)挖掘<b class='flag-5'>工具</b>集

    北大開(kāi)源了個(gè)中文分詞工具包,名為——PKUSeg

    多領(lǐng)域分詞:不同于以往的通用中文分詞工具,此工具包同時(shí)致力于為不同領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。根據(jù)待
    的頭像 發(fā)表于 01-16 10:29 ?7043次閱讀
    <b class='flag-5'>北大</b>開(kāi)源了<b class='flag-5'>一</b>個(gè)<b class='flag-5'>中文</b><b class='flag-5'>分詞</b><b class='flag-5'>工具包</b>,名為——<b class='flag-5'>PKUSeg</b>

    ToolKit是一套應(yīng)用于嵌入式系統(tǒng)的通用工具包

    ToolKit是一套應(yīng)用于嵌入式系統(tǒng)的通用工具包,可靈活應(yīng)用到有無(wú)RTOS的程序中,采用C語(yǔ)言面向?qū)ο蟮乃悸穼?shí)現(xiàn)各個(gè)功能,盡可能最大化的復(fù)用代碼,目前為止工具包包含:循環(huán)隊(duì)列、軟件定時(shí)
    的頭像 發(fā)表于 04-17 10:04 ?3662次閱讀

    搭建一套優(yōu)秀的嵌入式軟件框架必備的通用工具包

    ToolKit是一套應(yīng)用于嵌入式系統(tǒng)的通用工具包,可靈活應(yīng)用到有無(wú)RTOS的程序中,采用C語(yǔ)言面向?qū)ο蟮乃悸穼?shí)現(xiàn)各個(gè)功能,盡可能最大化的復(fù)用代碼,目前為止工具包包含:循環(huán)隊(duì)列、軟件定時(shí)
    的頭像 發(fā)表于 04-18 09:34 ?1288次閱讀

    Microchip 推出 MPLAB? 機(jī)器學(xué)習(xí)開(kāi)發(fā)工具包,助力開(kāi)發(fā)人員輕松將機(jī)器學(xué)習(xí)集成到 MCU 和 MPU中

    開(kāi)發(fā)工具包,提供一套完整的集成工作流程來(lái)簡(jiǎn)化機(jī)器學(xué)習(xí)模型開(kāi)發(fā)。這款軟件工具包可用于Microchip的各類單片機(jī) (MCU) 和微處理器 (
    的頭像 發(fā)表于 09-11 15:55 ?904次閱讀

    Microchip(微芯)推出MPLAB機(jī)器學(xué)習(xí)開(kāi)發(fā)工具包

    機(jī)器學(xué)習(xí)(ML)正成為嵌入式設(shè)計(jì)人員開(kāi)發(fā)或改進(jìn)各種產(chǎn)品的標(biāo)準(zhǔn)要求。為滿足這需求,Microchip(微芯)近日推出全新的MPLAB?
    的頭像 發(fā)表于 09-12 18:26 ?1294次閱讀
    Microchip(微芯)<b class='flag-5'>推出</b>MPLAB<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>開(kāi)發(fā)<b class='flag-5'>工具包</b>
    主站蜘蛛池模板: 中牟县| 麻栗坡县| 策勒县| 沛县| 渭源县| 黄龙县| 仙游县| 平谷区| 云阳县| 马边| 谷城县| 涞源县| 南雄市| 襄樊市| 菏泽市| 毕节市| 灌云县| 神农架林区| 确山县| 华坪县| 云林县| 台安县| 莱芜市| 五莲县| 嵩明县| 河西区| 华池县| 祁阳县| 泸州市| 东兰县| 凤凰县| 汪清县| 康平县| 敖汉旗| 平泉县| 佛教| 双江| 乌鲁木齐市| 望江县| 大庆市| 建德市|