你利用Nutch抓取并分析時,如何得到這個meta數值并處理呢?2:你可以從HtmlParseFilter擴展出一個RobotsParserFilter,用下面的代碼得到meta值:PropertiesgeneralMetaTags=metaTags.getGeneralTags()" />

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

[Nutch]如何利用HTML頁面中meta元素?

系統 1988 0

[Nutch]如何利用HTML頁面中meta元素?[鄭昀]

1:假如說你的站點頁面中有這么一句:

<META NAME="robots" CONTENT="index,follow">

你利用Nutch抓取并分析時,如何得到這個meta數值并處理呢?

2:你可以從HtmlParseFilter擴展出一個RobotsParserFilter,用下面的代碼得到meta值:

Properties generalMetaTags = metaTags.getGeneralTags();
String robots = generalMetaTags.getProperty("robots");

3:增加這個值到metadata中:

parse.getData().getMetadata().put("robots", robots);

4: robots屬性還可以再次從 metadata獲取:

String robots2 = parse.getData().get("robots");



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=652774


[Nutch]如何利用HTML頁面中meta元素?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 大渡口区| 老河口市| 塔城市| 江都市| 临汾市| 泾源县| 南宁市| 犍为县| 分宜县| 资讯 | 阳西县| 青铜峡市| 时尚| 乌鲁木齐市| 安庆市| 梧州市| 昭觉县| 天水市| 桂阳县| 土默特左旗| 泰州市| 肇源县| 龙山县| 深泽县| 毕节市| 河南省| 体育| 西华县| 宁远县| 阆中市| 武宁县| 汉阴县| 江津市| 永州市| 稻城县| 县级市| 滦南县| 长子县| 芜湖县| 凤冈县| 宁远县|