V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX  ›  推广

一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

  •  5
     
  •   GrahamCloud · 2016-11-25 18:09:47 +08:00 · 25115 次点击
    这是一个创建于 2957 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这两周,我们做了一个目前来看非常易用的云爬虫:

    主页在这里, zaoshu.io

    现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

    第 1 条附言  ·  2017-02-06 12:07:22 +08:00
    我们精心制作了一个使用视频:
    http://t.cn/RJzmG8v
    第 2 条附言  ·  2017-02-23 14:25:49 +08:00
    昨天更新了 ui ,也做了新的视频。
    http://www.bilibili.com/video/av8748581/
    183 条回复    2017-04-26 11:13:45 +08:00
    1  2  
    Lothar
        101
    Lothar  
       2017-02-07 13:46:35 +08:00   ❤️ 1
    这个东西确实很厉害,不过很好奇,那些需要我隐私信息登录网站才有的数据要怎么处理呢?
    GrahamCloud
        102
    GrahamCloud  
    OP
       2017-02-07 14:03:53 +08:00
    @ELLIA 求加微信 ,需要更多反馈意见!
    Zaoshuio
    每个任务是一天一次,多开任务即可。
    爬分页的功能现在在,控制面板里,年后正在上新版,会大幅变好用。
    GrahamCloud
        103
    GrahamCloud  
    OP
       2017-02-07 14:04:10 +08:00
    @Lothar 这个就要分很多情况了,目前能处理好很多。
    ELLIA
        104
    ELLIA  
       2017-02-07 14:05:33 +08:00
    @GrahamCloud 嗯,加了……
    Xrong
        105
    Xrong  
       2017-02-07 14:22:43 +08:00   ❤️ 1
    对于小白挺好,但是真正想要特定网站数据或者自定义强的功能,又觉得隔靴搔痒还不如自己写代码来得方便。
    gongzili456
        106
    gongzili456  
       2017-02-07 16:12:45 +08:00   ❤️ 1
    防抓机制怎么破的?
    GrahamCloud
        107
    GrahamCloud  
    OP
       2017-02-07 16:41:08 +08:00
    @Xrong 这版确实如此,马上会上一版新的全面提升。到时欢迎更多意见
    GrahamCloud
        108
    GrahamCloud  
    OP
       2017-02-07 16:41:19 +08:00
    @gongzili456 要一个一个搞定,嗯
    rickwise
        109
    rickwise  
       2017-02-08 12:44:06 +08:00 via iPhone   ❤️ 1
    Ajax 分页 能搞定么?怎么做?
    catfish
        110
    catfish  
       2017-02-08 13:11:22 +08:00   ❤️ 1



    怎么一个时间抓了这么多次,这个任务我是昨晚开始的。
    nomemo
        111
    nomemo  
       2017-02-08 13:50:00 +08:00   ❤️ 1
    怎么说呢,非常理想
    vizards
        112
    vizards  
       2017-02-08 16:08:05 +08:00   ❤️ 1
    为什么有的页面分析很久也没有出现结果啊...是学校 asp 做的站点
    GrahamCloud
        113
    GrahamCloud  
    OP
       2017-02-09 11:17:02 +08:00
    @rickwise 分页可以搞,马上发布的新版欢迎玩耍,并且会做一个使用视频。
    GrahamCloud
        114
    GrahamCloud  
    OP
       2017-02-09 11:17:25 +08:00
    @catfish 取消出了问题么
    GrahamCloud
        115
    GrahamCloud  
    OP
       2017-02-09 11:17:57 +08:00
    @nomemo 怎么说呢,这么理想看了好开心啊! 当然有问题一定告诉我
    GrahamCloud
        116
    GrahamCloud  
    OP
       2017-02-09 11:18:48 +08:00
    @vizards 求告知细节认真解决一下!
    zhucha
        117
    zhucha  
       2017-02-09 12:55:06 +08:00   ❤️ 1
    如果有多个分页,有时候三个分页,有时候三十个分页,这种在设置每次都抓取三十页,会不会有问题?
    GrahamCloud
        118
    GrahamCloud  
    OP
       2017-02-09 13:23:05 +08:00
    @zhucha 应该不会,如果出了问题,我可以后台帮你看看问题在哪,请放心!
    vizards
        119
    vizards  
       2017-02-09 14:44:27 +08:00   ❤️ 1
    r#116 @GrahamCloud 可能是昨天你们网络又出问题了吧,今天看了下又可以了
    GrahamCloud
        120
    GrahamCloud  
    OP
       2017-02-09 16:21:17 +08:00
    @vizards 恩,最近在上新版,多谅解。多提意见!
    lidream2016
        121
    lidream2016  
       2017-02-09 17:55:46 +08:00   ❤️ 1
    GrahamCloud
        122
    GrahamCloud  
    OP
       2017-02-09 20:13:31 +08:00
    @lidream2016 现在应该好了!
    zhucha
        123
    zhucha  
       2017-02-10 11:30:50 +08:00   ❤️ 1
    假设一个页面有两列,在左键点击第一列的第一个项目时,只会自动添加第一列的其它行的相关内容,然后在 Excel 里面生成第一列。实际第二列的内容和第一列一样,但必须要再点第二列的第一个项目,然后变成 Excel 的第 N 列。
    这样查看起来非常不方便,有没有办法智能识别,或者有什么办法让第 N 列自动移到第一列的下面呢?
    GrahamCloud
        124
    GrahamCloud  
    OP
       2017-02-10 12:15:58 +08:00
    @zhucha 好问题,求加微信! Zaoshuio
    x86
        125
    x86  
       2017-02-10 12:50:17 +08:00   ❤️ 1
    好奇有遮罩层的怎么解决
    GrahamCloud
        126
    GrahamCloud  
    OP
       2017-02-10 13:34:27 +08:00
    @x86 现在有好多点子,都在一个一个试着用
    catfish
        127
    catfish  
       2017-02-11 14:27:06 +08:00 via iPhone   ❤️ 1
    @GrahamCloud 正常了,之前任务重复运行
    GrahamCloud
        128
    GrahamCloud  
    OP
       2017-02-13 13:05:02 +08:00
    @catfish 多试一试,有问题随时说
    downsky
        129
    downsky  
       2017-02-13 13:15:55 +08:00   ❤️ 1
    帐号似乎验不验证没有区别。
    Nat
        130
    Nat  
       2017-02-13 13:17:52 +08:00   ❤️ 1
    楼主求个联系方式,我们公司对爬虫方面有业务需求
    DonxYu
        131
    DonxYu  
       2017-02-13 13:24:01 +08:00   ❤️ 1
    验证码问题貌似没解决 搜狗微信
    GrahamCloud
        132
    GrahamCloud  
    OP
       2017-02-13 16:25:30 +08:00
    @downsky 48 小时 不激活就有区别了
    GrahamCloud
        133
    GrahamCloud  
    OP
       2017-02-13 16:25:47 +08:00
    @Nat 好啊,微信: Zaoshuio
    GrahamCloud
        134
    GrahamCloud  
    OP
       2017-02-13 16:26:11 +08:00
    @DonxYu 收到,研究中。
    gabri
        135
    gabri  
       2017-02-14 12:09:24 +08:00 via Android   ❤️ 1
    好像很有趣
    exoticknight
        136
    exoticknight  
       2017-02-14 12:19:17 +08:00   ❤️ 1
    只用一个链接?太过简化的话就容易造成功能薄弱(当然有部分情况也是很方便
    数据结构是给 dom 结构的 class 啊 id 啊路径啊做索引?
    真正用的时候遇到的问题很多事混合的, AJAX 分页,然后爬出的链接要跟踪进去爬真正的数据,还要防反爬
    折腾过不少,最后还是学了一下 scrapy ,起码能 work ……
    GrahamCloud
        137
    GrahamCloud  
    OP
       2017-02-14 12:39:48 +08:00
    @gabri 持续迭代中,求意见
    GrahamCloud
        138
    GrahamCloud  
    OP
       2017-02-14 12:40:49 +08:00
    @exoticknight 通用爬虫一切为了易用吧。
    cqcn1991
        139
    cqcn1991  
       2017-02-15 12:24:44 +08:00   ❤️ 1
    用了一下,还是挺好用的
    但是现在只适合抓列表页面,不适合抓详情页面。对比了一下 Import.io, 感觉完善很多,不过比国内的八爪鱼, gooseeker 都好很多了,看好你们
    GrahamCloud
        140
    GrahamCloud  
    OP
       2017-02-15 13:16:02 +08:00
    @cqcn1991 详情页功能我们正在开发中,敬请期待。
    moonkiller
        141
    moonkiller  
       2017-02-20 13:01:54 +08:00   ❤️ 1
    lz 你太牛了。我就要个你这样的功能=。=
    GrahamCloud
        142
    GrahamCloud  
    OP
       2017-02-20 13:15:36 +08:00
    @moonkiller 真的?有问题有需要随时说啊
    moonkiller
        143
    moonkiller  
       2017-02-20 13:23:01 +08:00   ❤️ 1
    @GrahamCloud 问题太多,不知道从哪儿说 ಥ_ಥ。。。。
    GrahamCloud
        144
    GrahamCloud  
    OP
       2017-02-20 13:35:10 +08:00
    @moonkiller 来加微信: Zaoshuio ,慢慢说
    fhefh
        145
    fhefh  
       2017-02-20 15:34:06 +08:00
    先 mark 试用中
    F0nebula
        146
    F0nebula  
       2017-02-21 15:48:55 +08:00   ❤️ 1
    竖屏打开首页没有显示
    "热门数据来源 TOP 16"
    的图标 不过可以点击
    GrahamCloud
        147
    GrahamCloud  
    OP
       2017-02-21 16:36:21 +08:00
    @F0nebula 感谢!
    jadetang
        148
    jadetang  
       2017-02-22 19:30:29 +08:00   ❤️ 1
    好奇问一下,你们的爬取机器是只有一台吗,如果数据量过大,会爬取得很慢吗
    GrahamCloud
        149
    GrahamCloud  
    OP
       2017-02-23 13:28:07 +08:00
    @jadetang 用的阿里云
    hoyixi
        150
    hoyixi  
       2017-02-23 13:49:55 +08:00   ❤️ 1
    哈哈,赞一个
    GrahamCloud
        151
    GrahamCloud  
    OP
       2017-02-23 14:12:11 +08:00
    @hoyixi 昨天上线了神奇功能,快来试试
    jadetang
        152
    jadetang  
       2017-02-23 15:58:50 +08:00   ❤️ 1
    @GrahamCloudge 这个和阿里云没关系的啊。如果 1 万个人用,零点的时候有 100 万个爬取任务在爬取。那么你是弄一台很高配的 ecs 去跑吗
    GrahamCloud
        153
    GrahamCloud  
    OP
       2017-02-24 11:24:31 +08:00
    @jadetang 肯定是分布式的啊……
    jadetang
        154
    jadetang  
       2017-02-24 11:39:52 +08:00   ❤️ 1
    @GrahamCloud 那同一个任务是怎么只在一个机器上去跑的?
    GrahamCloud
        155
    GrahamCloud  
    OP
       2017-02-24 11:47:15 +08:00
    @jadetang 我们有非常好的任务调度,嘛,非常好。
    YingJie
        156
    YingJie  
       2017-02-25 21:07:48 +08:00   ❤️ 1
    楼主你好,请问你们的爬虫是基于 pyspider 吗?
    peesefoo
        157
    peesefoo  
       2017-02-26 09:36:08 +08:00 via Android   ❤️ 1
    以后会收费吗
    GrahamCloud
        158
    GrahamCloud  
    OP
       2017-02-27 11:16:55 +08:00
    @YingJie 接近了
    GrahamCloud
        159
    GrahamCloud  
    OP
       2017-02-27 11:17:40 +08:00
    @peesefoo 流量成本越来越高,以后必须要收费啊
    lneoi
        160
    lneoi  
       2017-02-27 11:38:00 +08:00   ❤️ 1
    注册的时候 看到“立即注册造数,获取你的数据”。犹豫了一秒,为什么我要主动贡献我的个人信息给你...然后就明白 我理解错了..
    GrahamCloud
        161
    GrahamCloud  
    OP
       2017-02-27 12:01:26 +08:00
    @lneoi 哈哈哈哈
    cuebyte
        162
    cuebyte  
       2017-03-07 12:08:04 +08:00   ❤️ 1
    再次推广之前应该注意一下自己的服务器是否能承载吧?

    你们连一些很简单的博客也刷不出来
    Mitt
        163
    Mitt  
       2017-03-07 12:16:19 +08:00   ❤️ 1
    _(:зゝ∠)_ 表示想知道前端后端服务端用了哪些技术
    Suclogger
        164
    Suclogger  
       2017-03-09 12:31:24 +08:00   ❤️ 1
    Suclogger
        165
    Suclogger  
       2017-03-09 14:10:25 +08:00
    可以抓取了,有个问题就是修改网址规则之后重新抓取,用的还是修改前的网址规则?
    benbenlang
        166
    benbenlang  
       2017-03-10 21:49:42 +08:00   ❤️ 1
    你们有 QQ 群吗,我想加一个,谢谢!
    GrahamCloud
        167
    GrahamCloud  
    OP
       2017-03-13 11:55:49 +08:00
    @cuebyte 求告知是哪个博客,非常感谢!
    GrahamCloud
        168
    GrahamCloud  
    OP
       2017-03-13 11:56:11 +08:00
    @Mitt 技术交流欢迎加微信: Zaoshuio
    GrahamCloud
        169
    GrahamCloud  
    OP
       2017-03-13 11:56:27 +08:00
    @benbenlang 欢迎加微信: Zaoshuio
    cuebyte
        170
    cuebyte  
       2017-03-13 12:23:18 +08:00   ❤️ 1
    @GrahamCloud 王垠的博客
    qianguozheng
        171
    qianguozheng  
       2017-03-14 11:33:10 +08:00   ❤️ 1
    打不开。。。
    GrahamCloud
        172
    GrahamCloud  
    OP
       2017-03-14 13:18:56 +08:00
    @qianguozheng 求告知!
    Zicoco
        173
    Zicoco  
       2017-03-28 10:15:12 +08:00 via Android   ❤️ 1
    能爬商品评论吗
    Zicoco
        174
    Zicoco  
       2017-03-28 15:16:05 +08:00   ❤️ 1
    淘宝的评论不行啊。。。必须先进入页面,点击才能到评论 tab,这个怎么破
    GrahamCloud
        175
    GrahamCloud  
    OP
       2017-03-28 15:31:03 +08:00
    @Zicoco 求告知详情!感谢
    x86
        176
    x86  
       2017-03-28 15:48:21 +08:00   ❤️ 1
    tab 页, ajax 等怎么破
    GrahamCloud
        177
    GrahamCloud  
    OP
       2017-03-28 16:00:10 +08:00
    @x86 之后我们会上通用方案。
    binux
        178
    binux  
       2017-04-21 16:21:40 +08:00   ❤️ 1
    半年了吧,行对其错误的问题依旧没有解决。
    sohoer
        179
    sohoer  
       2017-04-21 16:23:44 +08:00   ❤️ 1
    @binux #178

    就我们两个在说,他还不知道是什么

    等我把 www.hicrawler.com 写完
    GrahamCloud
        180
    GrahamCloud  
    OP
       2017-04-21 17:52:15 +08:00
    @binux 小团队,很多主要功能还在慢慢排期做,低下了羞愧的脑袋瓜儿。
    GrahamCloud
        181
    GrahamCloud  
    OP
       2017-04-21 17:52:41 +08:00
    @sohoer 求加 微信: Zaoshuio
    ooTwToo
        182
    ooTwToo  
       2017-04-25 13:45:59 +08:00   ❤️ 1
    服务挂了吧。
    GrahamCloud
        183
    GrahamCloud  
    OP
       2017-04-26 11:13:45 +08:00
    @ooTwToo 没有没有
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1088 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:48 · PVG 06:48 · LAX 14:48 · JFK 17:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.