日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python中文文本分句 sentence tokenize

系統(tǒng) 2230 0

由于nltk等都沒有實(shí)現(xiàn)句子級(jí)別的tokenize,或者文本分句。這里使用python正則,快速實(shí)現(xiàn)一個(gè),可以把文本分成若干個(gè)小句子。

代碼如下,如果你想要實(shí)現(xiàn)自己個(gè)性化的分句,例如只考慮“。!”等的分句,可以調(diào)整正則項(xiàng),“|”代表或的意思。

            
              def sent_tokenize(x):
    sents_temp = re.split('(:|:|,|,|。|!|\!|\.|?|\?)', x)
    sents = []
    for i in range(len(sents_temp)//2):
        sent = sents_temp[2*i] + sents_temp[2*i+1]
        sents.append(sent)
    return sents
            
          
            x:'這個(gè)配置和價(jià)位真的很合適,完全夠用,而且小黑的質(zhì)量非常不錯(cuò)。'

          
            sents:['這個(gè)配置和價(jià)位真的很合適,', '完全夠用,', '而且小黑的質(zhì)量非常不錯(cuò)。']
          

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 金门县| 汾阳市| 酉阳| 定远县| 汉源县| 阳城县| 姚安县| 苗栗县| 池州市| 琼海市| 开平市| 渭源县| 岐山县| 桂平市| 金溪县| 武夷山市| 连江县| 辽中县| 恭城| 湖南省| 丰城市| 汽车| 青州市| 哈密市| 青阳县| 聂荣县| 巢湖市| 莲花县| 宁乡县| 红安县| 萨嘎县| 四子王旗| 灵山县| 龙门县| 石首市| 东明县| 中牟县| 和林格尔县| 衡南县| 响水县| SHOW|