性能问题¶

如何提升爬取速度？¶

# settings.py
CONCURRENCY = 32  # 增加并发数

注意：并发数不是越高越好，需要考虑： - 目标网站承受能力 - 本地资源（CPU/内存/网络） - 是否有代理支持

# settings.py
DOWNLOAD_DELAY = 0  # 无延迟（谨慎使用）

# settings.py
DOWNLOADER = 'crawlo.downloader.HttpXDownloader'  # httpx 比 aiohttp 快

# settings.py
DOWNLOADER_MIDDLEWARES = {
    # 注释不需要的中间件
    # 'crawlo.middleware.ProxyMiddleware': 100,
}

# 使用 CSS 选择器（比 XPath 快）
data = response.css('div.item::text').get()

# 避免使用正则表达式

# settings.py
# MySQL 连接池
MYSQL_POOL_SIZE = 20

# Redis 连接池
REDIS_POOL_SIZE = 20

# settings.py
MEMORY_SCHEDULER_MAX_QUEUE_SIZE = 5000  # 限制队列大小

# settings.py
BACKPRESSURE_ENABLED = True
BACKPRESSURE_RATIO = 0.8  # 80% 使用率时触发

# settings.py
PIPELINES = {
    'crawlo.pipelines.MySQLPipeline': 300,  # MySQL批量存储
}
MYSQL_BATCH_SIZE = 100  # 每100条保存一次

# settings.py
MEMORY_FILTER_MAX_SIZE = 100000  # 限制过滤器大小

# settings.py
CONCURRENCY = 32  # 请求并发数
TCP_KEEPALIVE = True  # 启用 TCP 保活

# settings.py
MYSQL_POOL_SIZE = 20  # MySQL 连接池大小
MYSQL_MAX_OVERFLOW = 10  # 最大溢出连接数

# settings.py
FILE_PIPELINE_THREADS = 10  # 文件写入线程数

crawlo run myspider --log-level DEBUG

查看： - 请求延迟是否正常 - 是否有大量重试 - 是否有错误异常

# 测试目标网站响应时间
curl -o /dev/null -s -w '%{time_total}' https://example.com

# Linux/Mac
top -p $(pgrep -f crawlo)

# Windows
任务管理器 -> 详细信息 -> 查找 Python 进程

# 在爬虫中打印队列状态
async def parse(self, response):
    queue_size = await self.crawler.scheduler.queue.size()
    self.logger.info(f"队列大小: {queue_size}")

# settings.py
STATS_ENABLED = True
STATS_INTERVAL = 60  # 每 60 秒打印一次

日志中会显示：

INFO: Crawled 1234 pages (123 pages/min)
INFO: Success rate: 98.5%
INFO: Average response time: 0.5s

# settings.py
EXTENSIONS = {
    'crawlo.extension.StatsExtension': 100,
    'crawlo.extension.PerformanceExtension': 200,
}

# settings.py
RETRY_ENABLED = True
RETRY_TIMES = 3

# settings.py
PROXY_ENABLED = True
PROXY_LIST = ['http://proxy1:8080', 'http://proxy2:8080']

# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...'
RANDOM_UA = True  # 随机 UA

# settings.py
DOWNLOAD_DELAY = 1.0
RANDOMNESS = True

# settings.py
DYNAMIC_LOADER_ENABLED = True

# 将 URL 列表分成多批
batches = [urls[i:i+1000] for i in range(0, len(urls), 1000)]

for batch in batches:
    # 创建爬虫处理这一批
    pass

config = CrawloConfig.distributed(
    project_name='myproject',
    redis_host='redis.example.com',
    concurrency=32
)

# settings.py
NOTIFICATION_ENABLED = True
NOTIFICATION_CHANNELS = ['feishu', 'email']
NOTIFICATION_ON_ERROR = True

# settings.py
CHECKPOINT_ENABLED = True
CHECKPOINT_INTERVAL = 300  # 每 5 分钟保存一次

还有其他性能问题？ 查看调度指南或提交 GitHub Issue。