手机版

PHP实现抓取百度搜索结果页面[相关搜索词]并存储在txt文件中

时间:2021-08-31 来源:互联网 编辑:宝哥软件园 浏览:

本文讲述了一个PHP如何抓取百度搜索结果页面[相关搜索词]并存储在txt文件中的例子。分享给大家参考,如下:

一、百度搜索关键词【我们】

[我们]搜索链接

https://www.baidu.com/s?IE=UTF-8F=8RSV _ BP=0RSV _ IDX=1tn=百度WD=脚本屋RSV _ PQ=ab33 cfeb 0086 a2 RSV _ T=7c 65 vt3kzhcnfgyoin/DSS oquisutsipxwzobfkhypgrickmi74w ii8k 8 rqlang=CNRSV _

搜索结果部分源代码:

div id='rs'div class='tt '阿云/divtable单元格填充=' 0 ' t odyttrtha href='/s?wd=你好吗rsf=4562rsp=0f=1oq=中莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 00208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfbfeh xorg 65/tflpbf你好吗-伊甸园字幕组=-翻译:wd=张永强(音译)rsf=4562rsp=1f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzzv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6张永强(音译)-伊甸园字幕组=-翻译:wd=朱庇特朱庇特朱庇特阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹rsf=4562rsp=2f=1oq=中莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzzv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6朱庇特朱庇特朱庇特阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹/a/th/trtha? wd=莫大姐apprsf=4562rsp=3f=1oq=中文本莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 00208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfbfeh xorg 65/tflpbf阿俊应用程序/a/thtd/tdtha href='/s?wd=阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳rsf=4562rsp=4f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 ocsg 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 ocsg 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳-伊甸园字幕组=-翻译:wd=阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳rsf=4562rsp=5f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbzv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳阿琳/a/th/trtha? wd=你好吗rsf=4562rsp=6f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 00208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfbfeh xorg 65/tflpbf你好吗-伊甸园字幕组=-翻译:wd=吴亚玲吴亚玲rsf=4562rsp=7f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzzv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6吴亚玲吴亚玲-伊甸园字幕组=-翻译:wd=莫大姐rsf=4562rsp=8f=1oq=莫大姐ie=utf-8 RSV _ idx=1 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkbcdq fbfeh xorg 65/tflpsi 30//mmk 6 jqjeukzbzv 30 xarqlang=CNRS _ src=0 RSV _ pq=C1 ff 4 BDB 000208 b 4 RSV _ t=a1 F2 OCS GS 6 vkkdbddbfeh xorg 65/tflpsi 30//mmk 6莫大姐页:1

僧儿你好哥哥哥哥哥哥哥哥

阿云

index.php:

表单操作='index.php '方法='post '输入名称='q '类型=' text '/输入类型='提交'值='获取关键字'/表单?phpheader(' Content-type : text/html;charset=gbk ');类ComBaike { private $ o _ String=NULL;public function _ _ construct(){ include(' cls .字符串x . PHP ');$ this-o _ StrIng=new StrIngX();}公共函数GetItem($ word){ $ URL=' http://www .百度。com/s?wd='。$ word//构造包头,模拟浏览器请求$ header=array(' host : www。百度。com ','内容类型:应用/x-www-form-URL编码',//post请求Connection: keep-alive ' ',请参考www .3358。百度。com ',' User-agents : Mozilla/5.0(兼容;MSIE 9.0Windows NT 6.1WOW64三叉戟/5.0;BIDUBrowser 2.6)');$ ch=curl _ init();curl_setopt ($ch,CURLOPT_URL,$ URL);curl_setopt ($ch,CURLOPT_HTTPHEADER,$ header);curl_setopt ($ch,CURLOPT_RETURNTRANSFER,1);$ content=curl _ exec($ ch);if($ content==FALSE){ echo ' error : ' .curl _ error($ ch);} curl _ close($ ch);//输出结果回声$内容;$ this-o _ String-String=$ content;$ s _ begin=' div id=' RS $ s _ end='/div ';$ summary=$ this-o _ String-GetPart($ s _ begin,$ s _ end);$s_begin='div class='tt '相关搜索/div表格单元格填充=“0”trth;$ s _ end='/th/tr/table/div ';$ content=$ this-o _ String-getPart($ s _ begin,$ s _ end);返回$ content } public function _ _ destrust(){ unset($ this-o _ String);} } if($ _ POST){ $ com=new ComBaike();$ q=$ _ POST[' q '];$ str=$ com-GetItem($ q);//获取搜索内容$pat='/a(.*?)href='(.*?)' rel='external nofollow '(.*?)(.*?)\/a/I ';preg_match_all($pat,$str,$ m);//print _ r($ m[4]);链接文字$con=内爆(',',$ m[4]);//生成文件夹$ date=date(' Ymd ');$path=' ./Search/' .$日期./';if(!is_dir($path)){ mkdir($path,0777,true);} //生成文件$file=fopen($path.iconv('UTF-8 ',' GBK ',$q ').txt ',' w ');if(fwrite($file,$ con)){ echo $ con;echo ' script alert('成功')/script ';} else { echo '脚本警报(' error ')/script ';} fc lost($ file);}?cls .StringEx.php:

?phpheader(' Content-type : text/html;字符集=UTF-8 ';class StrInx { public $ string=public function _ _ construct($ string=' '){ $ this-string=$ string;} public function preget part($ s _ begin,$ s _ end){ $ s _ begin==preg _ quote($ s _ begin);$s_begin=str_replace('/',' \/',$ s _ begin);$ s _ end=preg _ quote($ s _ end);$s_end=str_replace('/',' \/',$ s _ end);$ pattern="/.$s_begin .'(.*?)'.$s_end .'/';$result=preg_match($pattern,$this-string,$ a _ match);if(!$ result){ return $ result;}else{ return isset($a_match[1])?$ a _ match[1]: " ";} } public function strtarget($ s _ begin,$ s _ end){ $ string=strtr($ this-string,$ s _ begin);$ string=strtr($ string,$s_end,true);$string=str_replace($s_begin ' ',$ string);$string=str_replace($s_end ' ',$ string);返回$ string}公共函数getPart($ s _ begin,$ s _ end){ $ result=$ this-preget part($ s _ begin,$ s _ end);if(!$ result){ $ result=$ this-strtarget($ s _ begin,$ s _ end);}返回$ result}}?更多关于服务器端编程语言(专业超文本预处理器的缩写)相关内容感兴趣的读者可查看本站专题: 《php curl用法总结》 、 《PHP网络编程技巧总结》 、 《PHP数组(Array)操作技巧大全》 、 《php字符串(string)用法总结》 、 《PHP数据结构与算法教程》 及《PHP中json格式数据操作技巧汇总》

希望本文所述对大家服务器端编程语言(专业超文本预处理器的缩写)程序设计有所帮助。

版权声明:PHP实现抓取百度搜索结果页面[相关搜索词]并存储在txt文件中是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。