技术教程

Python爬虫项目实战教程_Scrapy抓取与存储数据实例

作者:舞夢輝影2026-01-01 00:00:00

Scrapy是Python中成熟高效的爬虫框架，适合中大型项目，本文以抓取政务网站公告为例，完整演示了项目创建、爬虫编写、数据解析及CSV/MySQL存储全流程。

Scrapy 是 Python 中最成熟、高效的爬虫框架之一，适合中大型数据抓取项目。它自带异步请求、中间件、管道、选择器等完整组件，无需额外造轮子。下面以抓取一个静态新闻列表页（如某地方政务网站的公示公告）为例，带你完成从创建项目、编写爬虫、解析数据到存入 CSV 和 MySQL 的全流程。

一、环境准备与项目初始化

确保已安装 Python 3.8+ 和 pip。推荐使用虚拟环境隔离依赖：

运行 pip install scrapy 安装核心框架
执行 scrapy startproject news_spider 创建项目
进入项目目录：cd news_spider

生成的目录结构中，spiders/ 存放爬虫脚本，items.py 定义数据字段，pipelines.py 负责数据清洗与存储。

二、定义数据结构与编写爬虫逻辑

在 items.py 中声明要提取的字段：

import scrapy
class GovNoticeItem(scrapy.Item):
title = scrapy.Field()
publish_date = scrapy.Field()
url = scrapy.Field()
source = scrapy.Field()

在 spiders/ 下新建 notice_spider.py，继承 scrapy.Spider：

import scrapy
from news_spider.items import GovNoticeItem
class NoticeSpider(scrapy.Spider):
name = 'gov_notice'
allowed_domains = ['xx.gov.cn']
start_urls = ['https://www./link/7221cf069a295e443767735660697a24']
def parse(self, response):
    # 提取每条公告的链接
    for href in response.css('ul.notice-list a::attr(href)').getall():
        yield response.follow(href, callback=self.parse_detail)

    # 翻页（示例：下一页链接含“page=2”）
    next_page = response.css('a.next::attr(href)').get()
    if next_page:
        yield response.follow(next_page, callback=self.parse)

def parse_detail(self, response):
    item = GovNoticeItem()
    item['title'] = response.css('h1.title::text').get('').strip()
    item['publish_date'] = response.css('.date::text').re_first(r'\d{4}-\d{2}-\d{2}')
    item['url'] = response.url
    item['source'] = 'XX市人民政府'
    yield item

注意：CSS 选择器需根据目标网页实际 HTML 结构调整，可先用浏览器开发者工具验证；response.follow() 自动处理相对 URL，比 scrapy.Request 更简洁。
三、配置数据存储方式
Scrapy 默认支持 JSON、CSV、XML 导出，只需命令行指定：

保存为 CSV：scrapy crawl gov_notice -o notices.csv

追加模式（不覆盖）：scrapy crawl gov_notice -o notices.csv --nolog


若需存入 MySQL，需启用 Pipeline。在 pipelines.py 中添加：
import pymysql
class MysqlPipeline:
def open_spider(self, spider):
self.conn = pymysql.connect(
host='localhost', user='root', password='123456',
database='spider_db', charset='utf8mb4'
)
self.cursor = self.conn.cursor()
def close_spider(self, spider):
    self.cursor.close()
    self.conn.close()

def process_item(self, item, spider):
    sql = "INSERT INTO notices (title, publish_date, url, source) VALUES (%s, %s, %s, %s)"
    self.cursor.execute(sql, (item['title'], item['publish_date'], item['url'], item['source']))
    self.conn.commit()
    return item

然后在 settings.py 中启用该 Pipeline：
ITEM_PIPELINES = {
    'news_spider.pipelines.MysqlPipeline': 300,
}
别忘了提前在 MySQL 中建好表：CREATE TABLE notices (id INT AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255), publish_date DATE, url TEXT, source VARCHAR(100));
四、常见问题与优化建议
实战中容易踩坑的地方：

反爬响应（403/503）：在 settings.py 添加 ROBOTSTXT_OBEY = False，并设置 DOWNLOAD_DELAY = 1 控制请求频率

中文乱码：确保 MySQL 连接参数含 charset='utf8mb4'，且数据库、表、字段均为 utf8mb4 编码

字段为空：使用 .get('', default='') 或 .re_first() 避免 None 报错
调试技巧：在 parse 中插入 print(response.text[:500]) 查看原始 HTML，或用 scrapy shell 'http://xx.gov.cn/xxx' 交互式测试 CSS/XPath

Scrapy 不是黑盒，理解 request → response → item → pipeline 的数据流，就能灵活应对各类抓取场景。小项目用 CSV 快速验证，正式部署建议接入 MySQL 或 Elasticsearch 做后续分析。						
		



# mysql 
# css 
# word 
# python 
# html 
# js 
# json 
# go 
# 编码 
# 浏览器 
# 工具 
# 中文乱码 
# csv 
# ai 
 







相关栏目：
    【
        公司新闻    】
    【
        行业动态    】
    【
        常见问题    】
    【
        科技资讯    】
    【
        技术教程    】
    【
        网络推广    】
    【
        SEO优化    】






相关推荐：
MAC怎么截图并快速编辑_MAC自带截图快捷键与标注工具使用【方法】 
如何正确访问 Laravel 模型或对象的属性而非调用不存在的方法 
Windows 10怎么把任务栏放在屏幕上方_Windows 10解锁任务栏并拖动位置 
Win11时间怎么同步到原子钟 Win11高精度时间同步设置【指南】 
Python配置文件操作教程_JSONINIYAML解析与应用实战 
Windows10电脑怎么设置电源按钮_Win10按电源键关机或休眠 
Windows系统文件被保护机制阻止怎么办_权限不足错误处理方案 
如何使用Golang安装依赖库_管理模块和第三方包 
Win11怎么更改计算机名_Windows11系统信息重命名设备教程 
c++怎么使用std::unique实现去重_c++ 容器元素排序与连续重复删除【教程】 
Win11怎么设置开机密码_Windows11账户登录选项PIN码 
Win10如何卸载微软拼音输入法 Win10只保留一个输入法【教程】 
如何使用正则表达式提取以编号开头、后跟多个注解的完整代码块 
如何在Mac上搭建Golang开发环境_使用Homebrew安装和管理Go版本 
Python性能剖析高级教程_cProfileLineProfiler优化案例解析 
如何在Golang中使用内置函数_Golanglen append make等使用技巧 
Windows10如何更改计算机工作组_Win10系统属性修改Workgroup 
Win10系统怎么查看显卡温度_Win10任务管理器GPU温度 
LINUX的SELinux是什么_详解LINUX强制访问控制系统的入门与配置 
Win11怎么设置开机问候语_自定义Win11锁屏提示信息【技巧】 
Windows怎样拦截WPS弹窗广告_Windows拦截WPS弹窗广告设置【步骤】 
Mac如何整理桌面文件_Mac使用堆栈功能一键整理 
Python深度学习实战教程_神经网络模型构建与训练 
Win10系统怎么查看端口状态_Windows10 CMD查看网络连接 
如何将竖排文本文件转换为横排字符串 
php会话怎么开启_session_start函数的作用与使用时机【方法】 
php订单日志怎么按金额排序_php按订单金额排序日志方法【方法】 
Win11怎么开启剪贴板历史记录_Windows11 Win+V键使用技巧 
Win11怎么关闭搜索历史_Win11清除设备上的搜索历史记录 
Windows 10怎么录屏_Windows 10使用Xbox Game Bar录制屏幕视频教程 
Win11怎么关闭任务栏小组件_Windows11隐藏任务栏天气图标 
Win11怎样安装企业微信_Win11安装企业微信教程【步骤】 
c++获取当前时间戳_c++ time函数使用详解 
如何高效删除 NumPy 二维数组中所有元素相同的列 
Win11怎么关闭触控板_Win11笔记本禁用触摸板快捷键 
如何使用Golang编写单元测试_创建Test函数验证业务逻辑 
PhpStorm怎么调试PHP代码_PhpStorm断点设置与调试启动步骤【指南】 
Win11怎么设置按流量计费_Win11限制后台流量消耗【网络】 
c++怎么处理多线程死锁_c++ lock_guard与unique_lock锁管理【技巧】 
Windows的便笺功能如何使用？（桌面备忘技巧） 
如何在Golang中实现基础配置管理功能_Golang配置文件读取与更新示例 
Win11怎么关闭定位服务_保护Win11位置隐私设置指南【详解】 
php增删改查报错1054怎么办_字段名错误排查修复【解答】 
Win11怎么退出高对比度模式_Win11取消反色显示快捷键【修复】 
Go 语言标准库为何不提供泛型 Contains 方法：设计哲学与类型系统约束 
如何在Golang中验证模块完整性_Golanggo.sum校验与安全实践 
VSC怎样在Linux运行PHP_Ubuntu系统配置步骤【操作】 
Python抽象类与接口设计_规范说明【指导】 
c++如何打印函数堆栈信息_c++ backtrace函数与符号名解析【方法】 
Python文件操作优化_大文件与流处理解析【教程】

上一篇丨

Win11怎么硬盘分区 Win11新建磁盘分区详细教程【步骤】

下一篇丨

Windows蓝屏BAD_POOL_HEADER故障详解_蓝屏池损坏错误修复指南

新闻资讯

技术教程

Python爬虫项目实战教程_Scrapy抓取与存储数据实例

一、环境准备与项目初始化

二、定义数据结构与编写爬虫逻辑

联系我们