精品香蕉一区二区三区,久久久久亚洲AV无码网站,国产成人无码18禁午夜福利P

PHP網站制作中經常需要采集其他網站的數據，有些細節問題會導致遇到很大麻煩，至于攻防采集在此不細說，下面方維網絡記錄一下采集過程中的幾個要點需要注意的地方

1、首先要獲取到對方網址的所有內容，可能你會想到用file_gets_contents來獲取，但此函數不適合用于獲取遠程文件，用于打開本地txt文件還是蠻好用的。那么用什么來獲取呢？Curl，這個php的擴展來處理。下面就是一個簡單的獲取網頁內容的基本配置，更多參數配置可以到網上去搜。

php網站制作

2、在采集網頁匹配數據時，特別是在列表頁，可以先把獲取到的對方所有的空格換行等html標簽去掉，寫起正則來就會容易很多。這里提供一個函數：

cul采集函數

3、在獲取到對方的數據的時候就要開始正則匹配了，這里介紹幾個常有的匹配規則：
一個是任意字符(.*?)，另一個是([\s\S]*?)表示包括換行符的任意字符，在匹配過程中夠用了。然后選擇匹配模式i即可。

4、介紹一下采集的思路，可以先把符合頁面的數據下載下來保存為txt文件，再來本地處理就更快一些。還有就是為了避免頻繁訪問對方網站或數據丟失狀態可以加一個while(){}循環或是sleep()暫停幾秒來處理。把相關的數據庫處理函數要封裝好，直接調用。

5、還有一個重要的事情，很多人可能會忽略，就是頁面的編碼問題，如果對方網站是gbk的編碼，則相應的php文件或是用于提交條件的html文件也會是gbk的編碼。但是這會存在一個問題，就是發生在gbk的html向gbk的php頁面提交中文數據的時候，gbk的php文件可能就不會給你反應，如果你用這些中文數據去匹配的時候會遇到問題。于是要轉變思路，utf-8是最好的編碼模式，所以我們要采用utf-8的編碼，而對方的又是gbk的，如何做呢？
$allcontent =iconv('gbk', 'utf-8',removetag(curl_exec($ch)));
上面的這樣轉換就ok了！所有的都用utf-8

本文作者：方維網絡王國梁

如沒特殊注明，文章均為方維網絡原創,轉載請注明來自http://www.sdlwjx666.com/news/4092.html

上一篇：百度地圖API在如何網站上展示十分鐘的步行圈?
下一篇：【簽約】金沙江投資電腦版網站制作項目

相關網站設計案例

相關資訊

常見問題

国产女人被狂躁到高潮小说,亚洲日韩一区二区三区,色窝窝无码一区二区三区成人网站 ,丰满岳乱妇在线观看中字无码

php網站制作中curl采集需要注意的一些地方和技巧