加入收藏 | 设为首页 | 会员中心 | 我要投稿 安卓应用网 (https://www.0791zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > PHP > 正文

PHP实现采集抓取淘宝网单个商品信息

发布时间:2020-05-28 08:04:32 所属栏目:PHP 来源:互联网
导读:这篇文章主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

代码如下:

A.获取500图:

代码如下:]*id="J_ImgBooth"[^r]*rc="([^"]*)"[^>]*>/',$text,$img); //运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

代码如下:([^<>]*)/',$title); //因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容; $title=iconv('GBK','UTF-8',$title); //如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码) </p> <p><h3>C.获取价格:</h3></p> <p> 代码如下:]*>([^<]*)</1>/is',$price); //同理获取id为J_StrPrice的标签内容$price[2],$price[0]是整个标签, $price[1]为h3标签名; $price=floatval($price);//放入数据库估计还有转一下变量类型 </p> <p><h3>D.获取属性:</h3></p> <p>这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如</p> <p> 代码如下: <p>…</p> <ul> <p>…</p> </ul> … … <p>…</p> </p> <p>这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*</1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的……标签后面不是就是,所以我们可以采用变通法达到获取属性标签内容的目的。</p> <p> 代码如下:]*>.*</1>/is',$text0); //这个正则会抓取标签,当然我们属性标签就在这个的前面部分。 <p>$text1=preg_replace("/</div>[^<]<em><(div)[^c]</em>id="description"[^>]<em>>.</em></1>/is","",$text0);<br /> //匹配到</div >至最后然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。</p> <p>$attributes=preg_replace("/</div>[^<]<em><(div)[^c]</em>class="box J_TBox"[^>]<em>>.</em></1>/is",$text1);<br /> //如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。</p> </p> <p><h3>E.获取描述:</h3></p> <p>通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。</p> <p>好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“ </p> <p> 代码如下:<div id="J_DivItemDesc">描述加载中</p> </p> <p>这几个div是加载描述所必须的,那么下面就是写代码了:</p> <p> 代码如下:]*>[^<]*</script>/is',$content);//页面js脚本 $content=$content[0]; $description=' '; foreach ($content as &$v){$description.=iconv('GBK',$v);}; //将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。 </p></p> <p style="text-align:right;">(编辑:安卓应用网)</p> <p style="text-align:right;">【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!</p> </td> </tr> </table> </div> <div class="dede_pagess"><ul class="pagelist"></ul></div> <div class="ad-690"><script src='https://ess.0577qiche.com/d/js/acmsd/ad76.js' language='javascript'></script></div> <div class="g-box10"> <div class="t-2">相关内容</div> <ul class="b-box12"></ul> <ul class="b-box13"><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200522/8495.html" target="_blank">PHP应用:CakePHP框架Model关联对象用法分析</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200530/84321.html" target="_blank">PHP脚本的10个技巧(3)</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/47657.html" target="_blank">PHP处理SQL脚本文件导入到MySQL的代码实例</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/53696.html" target="_blank">关于PHP的相似度计算函数:levenshtein的使用介绍</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/65908.html" target="_blank">PHP 使用错误处理解析</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/64341.html" target="_blank">PHP的面向方面编程</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/63841.html" target="_blank">[PHP] 算法-有序数组旋转后寻找最小值的PHP实现</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/61254.html" target="_blank">PHP组合查询多条件查询实例代码</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/52997.html" target="_blank">深入PHP运行环境配置的详解</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200522/6806.html" target="_blank">如何判断PHP方法/函数中的可选参数是否设置?</a></li><div class="cl"></div></ul> </div> </div> </div> <div class="right-1 fr"> <div class="g-box8"> <div class="t-2">推荐文章</div> <ul></ul> </div> <div class="g-box11"> <div class="t-2">站长推荐</div> <ul class="b-box7"><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/65810.html" target="_blank">php 截断字符串并保持单词完整的简单示例</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200523/19752.html" target="_blank">php cookie用户登录的详解及实例代码</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200522/5435.html" target="_blank">php mail()函数在本地开发机器上很慢</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200522/10803.html" target="_blank">PHP开发中解决并发问题的几种实现方法分析</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/48071.html" target="_blank">php对数组排序代码分享</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200528/81995.html" target="_blank">PHP+SQL 注入攻击的技术实现以及预防办法</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/40693.html" target="_blank">php+mysqli实现批量执行插入、更新及删除数据的方</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200524/60356.html" target="_blank">php adodb操作mysql数据库</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200525/61259.html" target="_blank">解决MySQL中文输出变成问号的问题</a></li><li><a href="https://www.0791zz.com/html/kaifa/PHP/20200523/33246.html" target="_blank">php实现网站文件批量压缩下载功能</a></li></ul> </div> <script type="text/javascript">jQuery(".g-box8").slide({ titCell:"li",triggerTime:0 }); </script> <div class="ad-250"><script src='https://ess.0577qiche.com/d/js/acmsd/ad103.js' language='javascript'></script></div> <div class="g-box3 u-3"> <div class="t-1">热点阅读</div> <ul class="b-box2"></ul> </div> <div class="ad-250"><script src='https://ess.0577qiche.com/d/js/acmsd/ad77.js' language='javascript'></script></div> </div> <div class="cl"></div> </div> <div class="ad-960"><script src='https://ess.0577qiche.com/d/js/acmsd/ad78.js' language='javascript'></script></div> <div class="footer"> <p>【免责声明】本站内容转载自互联网,其发布内容言论不代表本站观点,如果其链接、内容的侵犯您的权益,烦请提交相关链接至邮箱bqsm@foxmail.com我们将及时予以处理。</p> <p>建议您使用1920×1080分辨率、谷歌浏览器Google Chrome、Microsoft Edge以获得本站的最佳浏览效果</p> <p>Copygight © 2008-2022 https://www.0791zz.com/ All Rights Reserved. 安卓应用网</p> <p><script type="text/javascript" src="//js.users.51.la/21280179.js"></script></p> </div> </body> </html>