分類導(dǎo)航

編寫一個(gè)可配置的網(wǎng)頁信息提取組件

發(fā)布時(shí)間：2017年07月21日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

引言

最近項(xiàng)目有需求從一個(gè)老的站點(diǎn)抓取信息然后倒入到新的系統(tǒng)中。由于老的系統(tǒng)已經(jīng)沒有人維護(hù)，數(shù)據(jù)又比較分散，而要提取的數(shù)據(jù)在網(wǎng)頁上表現(xiàn)的反而更統(tǒng)一，所以計(jì)劃通過網(wǎng)絡(luò)請(qǐng)求然后分析頁面的方式來提取數(shù)據(jù)。而兩年前的這個(gè)時(shí)候，我似乎做過相同的事情——緣分這件事情，真是有趣。

設(shè)想

在采集信息這件事情中，最麻煩的往往是不同的頁面的分解、數(shù)據(jù)的提取——因?yàn)轫撁娴脑O(shè)計(jì)和結(jié)構(gòu)往往千差萬別。同時(shí)，對(duì)于有些頁面，通常不得不繞著彎子請(qǐng)求（ajax、iframe等），這導(dǎo)致數(shù)據(jù)提取成了最耗時(shí)也最痛苦的過程——因?yàn)槟阈枰帉懘罅康倪壿嫶a將整個(gè)流程串聯(lián)起來。我隱隱記得15年的7月，也就是兩年前的這個(gè)時(shí)候，我就思考過這個(gè)問題。當(dāng)時(shí)引入了一個(gè)類型CommonExtractor來解決這個(gè)問題。總體的定義是這樣的：

    public class CommonExtractor
    {        public CommonExtractor(PageProcessConfig config)        {
            PageProcessConfig = config;
        }        protected PageProcessConfig PageProcessConfig;        public virtual void Extract(CrawledHtmlDocument document)        {            if (!PageProcessConfig.IncludedUrlPattern.Any(i => Regex.IsMatch(document.FromUrl.ToString(), i)))                return; 
        
        	
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

編寫一個(gè)可配置的網(wǎng)頁信息提取組件

引言

設(shè)想

延伸閱讀

我想了解如何學(xué)習(xí)