python – 使用scrapy刮掉没有javascript代码的文本
发布时间:2020-05-23 18:56:20 所属栏目:Python 来源:互联网
导读:我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等).问题是:有时,我的目标节点包含 script标签,因此刮下的文本包含javascript代码.Here is a link到我正在使用的一个真实的例子.在这种情况下,我的目标节点是// td
|
我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等). 问题是:有时,我的目标节点包含< script>标签,因此刮下的文本包含javascript代码. Here is a link到我正在使用的一个真实的例子.在这种情况下,我的目标节点是// td [@ id =’contenuStory’].问题是有一个< script>标记在第一个子div中. 我花了很多时间在网上和SO上搜索解决方案,但我找不到任何东西.我希望我没有错过任何明显的东西! 例 HTML响应(仅限目标节点):
我想要的东西:
我得到了什么:
我的代码 给定一个xpath选择器我正在使用以下函数来提取文本:
我尝试过使用XPath轴(像child :: script这样的东西),但无济于事. 最佳答案 尝试使用w3lib.html中的utils函数: (编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
