博客
关于我
Python实战演练之数据过滤
阅读量:734 次
发布时间:2019-03-22

本文共 794 字,大约阅读时间需要 2 分钟。

数据过滤与管道优化

上章回顾

从前一章导出的数据表中发现存在price == None的情况。这部分数据对应免费课程,并非我们目标爬取的内容。为确保数据完整,需对此进行过滤。

開 啟 EducsdnPipeline

在Scrapy的settings配置中,啟用EducsdnPipeline。該 Pipeline需置位 من Backbone,以便其後續的MysqlPipeline能正確接受過濕之後的數據.

Pipeline 定義

更新ITEM_PIPELINES設定如下:

ITEM_PIPELINES = {    'educsdn.pipelines.EducsdnPipeline': 300,    'educsdn.pipelines.MysqlPipeline': 301,}

設定方式指示了EducsdnPipeline應負責數據 προ靜過濕處理。

Pipeline 重寫

重定義EducsdnPipeline,新增如下功能:

import arcpyfrom scrapy.exceptions import DropItemclass EducsdnPipeline(object):    def process_item(self, item, spider):        if item['price'] is None:            raise DropItem("價值為NONE,移除此資料")        return item

此模式為МysqlPipeline不變,並保持原有設定。

清 確 表 中數據

實施以上變更之後،重新從終端執行:

educsdn $ scrapy crawl courses

此操作將僅říz禁那些price == None 的數據。

通過這些最佳實踪措施,可以有效保障爬取數據的完整性,避免無效數據存儲。

转载地址:http://lvggz.baihongyu.com/

你可能感兴趣的文章
orm总结
查看>>
os.environ 没有设置环境变量
查看>>
os.path.join、dirname、splitext、split、makedirs、getcwd、listdir、sep等的用法
查看>>
os.removexattr 的 Python 文档——‘*‘(星号)参数是什么意思?
查看>>
os.system 在 Python 中不起作用
查看>>
OS2ATC2017:阿里研究员林昊畅谈操作系统创新与挑战
查看>>
OSCACHE介绍
查看>>
SQL--合计函数(Aggregate functions):avg,count,first,last,max,min,sum
查看>>
OSChina 周五乱弹 ——吹牛扯淡的耽误你们学习进步了
查看>>
SQL--mysql索引
查看>>
OSChina 周四乱弹 ——程序员为啥要买苹果手机啊?
查看>>
OSChina 周日乱弹 —— 2014 年各种奇葩评论集合
查看>>
OSChina 技术周刊第十期,每周技术抢先看!
查看>>
OSError: no library called “cairo-2“ was foundno library called “cairo“ was foundno library called
查看>>
OSError: [WinError 193] %1 不是有效的 Win32 应用程序。
查看>>
osgearth介绍
查看>>
OSGi与Maven、Eclipse PlugIn的区别
查看>>
Osgi环境配置
查看>>
OSG——选取和拖拽
查看>>
OSG中找到特定节点的方法(转)
查看>>