日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python中文文本分句 sentence tokenize

系統 2337 0

由于nltk等都沒有實現句子級別的tokenize,或者文本分句。這里使用python正則,快速實現一個,可以把文本分成若干個小句子。

代碼如下,如果你想要實現自己個性化的分句,例如只考慮“。!”等的分句,可以調整正則項,“|”代表或的意思。

            
              def sent_tokenize(x):
    sents_temp = re.split('(:|:|,|,|。|!|\!|\.|?|\?)', x)
    sents = []
    for i in range(len(sents_temp)//2):
        sent = sents_temp[2*i] + sents_temp[2*i+1]
        sents.append(sent)
    return sents
            
          
            x:'這個配置和價位真的很合適,完全夠用,而且小黑的質量非常不錯。'

          
            sents:['這個配置和價位真的很合適,', '完全夠用,', '而且小黑的質量非常不錯。']
          

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 犍为县| 建湖县| 齐齐哈尔市| 基隆市| 翼城县| 安义县| 巴林右旗| 兰州市| 荥经县| 汾西县| 龙游县| 古蔺县| 无锡市| 罗定市| 泰宁县| 大关县| 龙山县| 乌审旗| 乐安县| 屏南县| 东源县| 崇左市| 正定县| 麻阳| 卢氏县| 民丰县| 井冈山市| 大荔县| 包头市| 和硕县| 玛多县| 临泉县| 滨海县| 漾濞| 吉林省| 海阳市| 乐山市| 赣榆县| 汉中市| 大厂| 札达县|