V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  makeapp  ›  全部回复第 1 页 / 共 1 页
回复总数  11
2019-06-14 11:48:12 +08:00
回复了 makeapp 创建的主题 程序员 搜索引擎类爬虫 crawl frequency 策略的设计
@locoz 假设给定邮编后能知道 gps 的坐标,100w 个饭店的 gps 坐标也都知道。10 种送餐方式相当于是 seed_url,访问其中一个 url 后输入邮编,可以获取附近 10 公里内的饭店和快递费用。想求的是,给定邮编 xxx,对于附近的饭店,最便宜的送餐方式什么?
2016-10-09 08:42:00 +08:00
回复了 makeapp 创建的主题 SSH ssh -p 失败
@makeapp 解决了。
这条命令
```
ssh -p 10086 root@aliyun
```
应该输入本地内网电脑的密码
2016-10-09 08:36:15 +08:00
回复了 makeapp 创建的主题 SSH ssh -p 失败
@jigloo 什么意思?我本地电脑是可以通过 ssh root@localhost 的

我改了 PermitRootLogin 和 GatewayPorts
2016-09-25 00:18:08 +08:00
回复了 makeapp 创建的主题 路由器 在极路由上安装 python
@ixinshang 什么意思
2016-09-18 14:22:34 +08:00
回复了 hippoboy 创建的主题 Python 请问使用 scrapy 的优势是什么?直接用 requests 不是很简单?
@est 方便在于,改下 xpath ,改下数据库存储的格式,就可以抓取几百万的数据。
2016-09-18 14:19:13 +08:00
回复了 hippoboy 创建的主题 Python 请问使用 scrapy 的优势是什么?直接用 requests 不是很简单?
我通常都是用 requests 做测试, scrapy 做生产。不清楚 requests 上的高级用法,但 scrapy 的 pipeline , middleware 非常好用,比如数据存储,换 UA ,换 proxy , itemloader 。
2016-09-16 14:59:03 +08:00
回复了 makeapp 创建的主题 Python 爬取 crunchbase
@caspartse 这是什么抓包软件?
2016-09-16 14:57:01 +08:00
回复了 makeapp 创建的主题 Python 爬取 crunchbase
谢谢各位指点,我试了很多 headers ,我一直怀疑是 headers 的问题,最后发现是阿里云的 ip 的问题。我换 ip 后就好了。
logging 模块更加完善,有很多功能。我通常是用 logging 做日志记录进行事后分析, print 作为实时监控,可以直接在 terminal 中查看爬虫实时状态。
2016-09-16 12:04:05 +08:00
回复了 redhatping 创建的主题 Python 爬虫爬到 90%的数据以后,超时了。。
维护一个几个队列,用来存放增量爬取的数据
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2730 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 14:53 · PVG 22:53 · LAX 06:53 · JFK 09:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.