V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cqcn1991
V2EX  ›  问与答

爬虫求助: 美亚的书有人抓过没?有啥好方法?

  •  
  •   cqcn1991 · 2017-04-22 08:34:31 +08:00 · 2879 次点击
    这是一个创建于 2808 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要是关注亚马逊有哪些新书出来

    每本书的信息,评论、评分似乎都挺好抓

    9 条回复    2017-04-22 16:32:35 +08:00
    cqcn1991
        1
    cqcn1991  
    OP
       2017-04-22 08:45:05 +08:00
    我个人找到的是, https://www.amazon.com/gp/new-releases/books 感觉可以爬一爬
    zyEros
        2
    zyEros  
       2017-04-22 08:56:55 +08:00 via iPhone
    亚马逊会给你假信息的
    Pysensor
        3
    Pysensor  
       2017-04-22 09:09:25 +08:00
    解析亚马逊的页面就足够喝一壶了。。
    cqcn1991
        4
    cqcn1991  
    OP
       2017-04-22 09:26:07 +08:00 via iPhone
    @zyEros
    @Pysensor 靠…有这么难?!
    Pysensor
        5
    Pysensor  
       2017-04-22 10:55:18 +08:00
    @cqcn1991 你随便点开个商品看看页面源代码。。看看怎么清洗信息比较妥当
    clanned
        6
    clanned  
       2017-04-22 11:21:54 +08:00 via Android
    也许可以参考我这个 https://github.com/xdtianyu/FreeKindle
    cqcn1991
        7
    cqcn1991  
    OP
       2017-04-22 13:10:22 +08:00 via iPhone
    @Pysensor 书的基本信息应该是有 api 之类,就是 isbn 直接获取信息,因为之前看 library genesis 有调用
    ilcn
        8
    ilcn  
       2017-04-22 16:03:47 +08:00
    libgen 有数据库下载你可以去看一下。有 index 和 dump 两种。 mysql 的 dump 是 15g 还是 30g ,直接按时间抓出来就行了
    cqcn1991
        9
    cqcn1991  
    OP
       2017-04-22 16:32:35 +08:00 via iPhone
    @ilcn …厉害…学到了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2403 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:18 · PVG 10:18 · LAX 18:18 · JFK 21:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.