V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
cnfzv
V2EX  ›  程序员

一个服务器只有几台,最大内存不到 16G 的软件公司还想搞爬虫大数据,这算什么样的公司

  •  
  •   cnfzv · 2017-04-24 14:36:02 +08:00 · 18153 次点击
    这是一个创建于 2805 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个服务器只有几台,最大内存不到 16G 的软件公司 想搞爬虫、大数据,抓取的数据库主要用 SQLSERVER 。 搞数据抓取的只有一个新人,这算什么样的公司

    第 1 条附言  ·  2017-04-24 16:55:29 +08:00
    全部三台服务器, 12G 、 8G 、 4G ,每个上面都安了俩数据库和一堆别的程序,并不是只给爬虫用
    97 条回复    2017-04-26 10:33:00 +08:00
    crazykuma
        1
    crazykuma  
       2017-04-24 14:38:12 +08:00   ❤️ 5
    老板脑洞比虫洞还大的公司吧
    webjin1
        2
    webjin1  
       2017-04-24 14:40:05 +08:00 via Android
    走人
    crab
        3
    crab  
       2017-04-24 14:42:32 +08:00
    爬 V2 吗 O(∩_∩)O
    qiayue
        4
    qiayue  
       2017-04-24 14:46:01 +08:00
    搞爬虫没问题啊
    搞大数据就你也没有提供更多的信息,不评论
    jarlyyn
        5
    jarlyyn  
       2017-04-24 14:46:48 +08:00
    爬虫不是要 ip 池和带宽么?
    LU35
        6
    LU35  
       2017-04-24 15:00:32 +08:00
    快走人,下一题.
    murmur
        7
    murmur  
       2017-04-24 15:01:50 +08:00
    先搞起来骗到风投,没差
    gouchaoer
        8
    gouchaoer  
       2017-04-24 15:02:24 +08:00
    最重要的是钱给够了,为什么不能搞?
    看不起 sqlserver 么,比 mongo 靠谱
    爬虫又咋吃 cpu 和内存
    alwayshere
        9
    alwayshere  
       2017-04-24 15:02:31 +08:00
    爬虫 16G 貌似也行
    ryanzyy
        10
    ryanzyy  
       2017-04-24 15:03:51 +08:00
    看主要的开发者是否有实力吧
    初期服务器弱没问题啊
    server
        11
    server  
       2017-04-24 15:06:45 +08:00
    服务器够了,剩下自己发挥
    Aliencn
        12
    Aliencn  
       2017-04-24 15:06:49 +08:00
    有志向的公司
    marlboros
        13
    marlboros  
       2017-04-24 15:07:55 +08:00

    资金流到位
    升级服务器
    老板跟你提效率问题了吗?
    Hozzz
        14
    Hozzz  
       2017-04-24 15:13:21 +08:00   ❤️ 1
    单从数据库方面来说, sqlserver 现在可是三大主流数据库之一...
    cnfzv
        15
    cnfzv  
    OP
       2017-04-24 15:17:03 +08:00
    @ryanzyy
    @gouchaoer
    @jarlyyn
    开发就一个 Java 新人 服务器都是旧服务器,抓了 1000 万的数据吧,信息分离完成有 6000 万条以上的数据吧,都存 8g 内存服务器的 sqlserver 上 ,数据库和开发都是一个人管。 java 新人 爬虫用的框架,项目没提给买代理的事,也就没研究,存数据库的服务入口带宽 10M 大概吧
    gouchaoer
        16
    gouchaoer  
       2017-04-24 15:19:53 +08:00
    @cnfzv 这些都不重要,重要的是薪水和你的工作量。。。
    jarlyyn
        17
    jarlyyn  
       2017-04-24 15:20:39 +08:00   ❤️ 1
    @cnfzv

    就你给到的数据来看,这是家完美的控制了成本的很成功的公司…………

    如果换服务器换有经验的员工,能抓到 5000 万记录么……
    cnfzv
        18
    cnfzv  
    OP
       2017-04-24 15:25:49 +08:00
    @gouchaoer 那个 java 新人就是我, spring 都不会用,也就用个 webmagic 抓俩网站,数据库服务器都是我在弄,基本什么都干。工作不重,但是很杂
    yanzixuan
        19
    yanzixuan  
       2017-04-24 15:26:19 +08:00
    要是用 erlang , 16G 应该够用了。。。掩面跑开。。。
    ytmsdy
        20
    ytmsdy  
       2017-04-24 15:40:15 +08:00
    估计老板被人忽悠了,觉得手里有个十几个 G 的数据,然后分析分析就是大数据了!
    cnfzv
        21
    cnfzv  
    OP
       2017-04-24 15:44:30 +08:00
    @ytmsdy 只是想做大数据,并不是把现在这点东西当作大数据了。
    sweb
        22
    sweb  
       2017-04-24 15:47:12 +08:00
    主要看钱,楼主纠结啥?
    benbenlang
        23
    benbenlang  
       2017-04-24 15:48:28 +08:00
    老板被卖服务器的忽悠了,,,你要再和他争辩他会觉得你能力不行。。。
    qqpkat2
        24
    qqpkat2  
       2017-04-24 15:57:48 +08:00
    @cnfzv 第一次听说搞开发的事情很杂,你来搞搞边运维边开发试试?
    firefox12
        25
    firefox12  
       2017-04-24 16:00:47 +08:00 via iPhone
    512M 主机 每天 20 分钟扫描京东全网,不过那是 5 年前了。在 512m 主机上 每天还完成 1800 万房产数据的排序。

    我不觉得这样的设备有什么差的 现在端口支持 reuse 。抓多少数据只是受限于网络和 cpu
    towser
        26
    towser  
       2017-04-24 16:01:50 +08:00
    公司名字叫什么
    cnfzv
        27
    cnfzv  
    OP
       2017-04-24 16:04:04 +08:00
    @qqpkat2 我就是那个 java 新人,开发水平比较低,数据库基本维护就是我在弄,服务器基本没人管理,我大概做一点简单的维护,里面跑的都是公司正在用的项目程序,需要什么东西自己一点点在上面研究部署。
    cnfzv
        28
    cnfzv  
    OP
       2017-04-24 16:08:29 +08:00
    @firefox12 三台全是 Windows 服务器,爬虫和数据库都在上面,需要经常从上面查点数据
    Felldeadbird
        29
    Felldeadbird  
       2017-04-24 16:10:13 +08:00
    这要看你们要爬什么数据了。 16G 内存,可以实现很多东西。
    我司的爬虫才 1G 内存。主要爬对手商品信息,动态。
    楼主你这种没有详细信息的内容,真让人为怀疑你是为了喷而喷。
    cnfzv
        30
    cnfzv  
    OP
       2017-04-24 16:14:21 +08:00
    @benbenlang 并没有,都是好久之前的服务器,起码 2011 年之前的吧
    stabc
        31
    stabc  
       2017-04-24 16:18:48 +08:00
    如果是专业领域的大数据也不一定需要非常大容量啊。
    bravecarrot
        32
    bravecarrot  
       2017-04-24 16:22:13 +08:00
    大数据 不一定是数据量很大很大
    cnfzv
        33
    cnfzv  
    OP
       2017-04-24 16:25:52 +08:00
    @Felldeadbird 三台服务器,全是 windows , 6 、 7 年前的机器吧,两台在外网的都是公司正在用的项目,不敢大折腾,剩下的一台是个 8g 内存的塔式,抓数据、入库、数据处理、数据查询都要在上面进行。带宽不到 1MB 吧,其实能跑的动,只是我水平不够,也只有我去弄爬虫,心累。
    cnfzv
        34
    cnfzv  
    OP
       2017-04-24 16:29:30 +08:00
    @stabc
    @bravecarrot 并不是什么专业数据,也算不上大数据,只是公司有那个想法。干的一个项目的活,人家想要哪部分的信息,你就去抓哪部分,弄好了给人家送去。
    simapple
        35
    simapple  
       2017-04-24 16:38:20 +08:00
    也行 先跑着呗 等不够用了 上云
    reus
        36
    reus  
       2017-04-24 16:39:56 +08:00   ❤️ 6
    水平不足赖硬件……
    16G 不小, SQLServer 不差,做爬虫一个人也够。
    问题在于你,你能力不够,又不肯学习,才赖硬件,赖数据库,赖人手,赖公司。
    抱歉,实在不知道你有什么可以抱怨的。
    deadEgg
        37
    deadEgg  
       2017-04-24 16:42:57 +08:00
    16G 真的够了,你怕内存爆了,很多框架都有类似于 placeholder 的机制。

    你用心去做绝对搞得出成果的,不过可能时间上和过程上比较困难一点点而已
    Jimrussell
        38
    Jimrussell  
       2017-04-24 16:46:25 +08:00   ❤️ 1
    大家没注意到楼主说的是“软件公司”么。很明显老板想开拓新业务,然后挑了楼主在试水啊。花钱让你涨技术涨经验,这样的好事并不多的好吗。
    windfarer
        39
    windfarer  
       2017-04-24 16:47:59 +08:00
    楼主觉得多大的内存才能跑爬虫。。
    cnfzv
        40
    cnfzv  
    OP
       2017-04-24 16:50:30 +08:00
    @reus 心情不太好,抱怨下能让自己好过点就碎嘴一会吧。我并不完全算开发吧,要研究爬虫,要去查数据库,比对数据字典导数据,偶尔兼职测试按要求去测业务。做的一堆东西从来没有开发文档,口头需求,现做现改,所有东西全靠自学,不会的全靠百度,最近又弄了堆破事,有心无力,允许我抱怨下吧
    ipoh
        41
    ipoh  
       2017-04-24 16:56:26 +08:00   ❤️ 1
    @cnfzv 用百度的码农凭什么抱怨啊,努力还不够
    killerv
        42
    killerv  
       2017-04-24 16:59:33 +08:00
    多大的业务? 16G 应该够了啊
    cnfzv
        43
    cnfzv  
    OP
       2017-04-24 17:09:31 +08:00
    @killerv 只是爬虫 8g 都够了,可惜还有很多乱起八糟的东西跑着,而我也不只是去弄开发。我只是心情很不好,而这个公司发展方向确实也不太好,他们主要靠业务吃饭,开发并不重要。
    klxq15
        44
    klxq15  
       2017-04-24 17:10:59 +08:00 via Android
    大数据也没规定多大数据就算大数据啊。。。
    jayong
        45
    jayong  
       2017-04-24 17:18:46 +08:00
    @ipoh 哼 我用神马
    we3613040
        46
    we3613040  
       2017-04-24 17:24:51 +08:00
    听着挺爽的,不过就是发展不怎样,混日子还行
    Felldeadbird
        47
    Felldeadbird  
       2017-04-24 17:28:20 +08:00
    8G 的服务器,足够你用爬虫了。只是带宽出口 1M ,太少了。估计爬起来效率很低。你另外还有 2 台服务器,可以让他们做爬虫业务。反正我司 1U1G 100M 的服务器,每天爬 100 万的数据都没任何压力、一部分展示业务也在这台机器上进行。楼主自己做参考。
    bk201
        48
    bk201  
       2017-04-24 17:29:13 +08:00
    window 这内存不够吧, linux 倒是可以。
    eDeeraiD0thei6Oh
        49
    eDeeraiD0thei6Oh  
       2017-04-24 17:29:23 +08:00
    一个小目标 我觉得楼主多虑了
    cnfzv
        50
    cnfzv  
    OP
       2017-04-24 17:30:42 +08:00
    @Felldeadbird redis 队列,数据库、爬虫都在这一个 8g 上面,另外两个机器也跑着爬虫,但是得用这个机器入库,另外两个机器跑不动 redis
    Felldeadbird
        51
    Felldeadbird  
       2017-04-24 17:32:31 +08:00
    补充一点,服务器数据是定时删除的。如果楼主公司业务需要展示以前的数据,在数据大了的情况下,单机肯定是不够用的。但是不论怎样也好。刚开始的时候,数据量不大就别去担心硬件这个事情了。等到不够用的时候,直接向上面申请。他们不审批也没关系,让他们继续等待缓慢的服务……
    brucedone
        52
    brucedone  
       2017-04-24 17:43:01 +08:00
    很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。
    hundan
        53
    hundan  
       2017-04-24 17:47:11 +08:00 via Android
    我觉得楼主这样完全可以单干,自己开公司……
    jiangzhuo
        54
    jiangzhuo  
       2017-04-24 17:52:46 +08:00
    16G 没什么问题吧,如果爬垂直领域的, 32 台 500M 的爬虫也挺好,另外谁有国内比较便宜的代理池子给推荐一下。
    yohole
        55
    yohole  
       2017-04-24 18:19:46 +08:00
    @crab 我爬过 V2 ,一台最普通的 PC 爬个两天,基本搞掂了
    gamecreating
        56
    gamecreating  
       2017-04-24 18:30:02 +08:00
    跟机器有关系吗? PC 电脑一样采集..
    lyhiving
        57
    lyhiving  
       2017-04-24 18:52:07 +08:00 via Android
    有内幕,估计就是爬了“大数据”三个字
    fermiz
        58
    fermiz  
       2017-04-24 18:57:21 +08:00
    我们学校给论坛的都 64G 。。。。
    coreos
        59
    coreos  
       2017-04-24 19:05:01 +08:00
    @cnfzv 做着做着,做明白了,就大牛了。
    SlipStupig
        60
    SlipStupig  
       2017-04-24 19:10:14 +08:00
    2G 内存+2Core 每天抓取上千万的电商数据.....
    XDA
        61
    XDA  
       2017-04-24 19:33:18 +08:00 via iPhone
    对比我们自建机房上百台物理机啥也没干不好,每月几十万的服务器租赁费用,没有对比就没有伤害
    jyf
        62
    jyf  
       2017-04-24 20:33:20 +08:00
    内存不是问题 主要是出口 ip 另外我想楼主可能是想吐草大数据这三个字
    wdlth
        63
    wdlth  
       2017-04-24 21:34:47 +08:00
    配置不是大问题,数据的处理才是……
    razrlele
        64
    razrlele  
       2017-04-24 21:53:23 +08:00
    @firefox12 太强了。。。能透露下怎么做到的么。。。感觉解析页面还是很耗 CPU 的把。。。
    sagaxu
        65
    sagaxu  
       2017-04-24 21:58:29 +08:00
    我手上 4 台专用的,没有内存低于 32G 的,虽然只用了不到 4G ,但是公司采购不到这么低内存的双 CPU 机器
    roist
        66
    roist  
       2017-04-24 22:02:02 +08:00
    听起来像是

    老板有亲戚在当大官,能拿到政府补贴或者订单的
    scofieldpeng
        67
    scofieldpeng  
       2017-04-24 22:11:33 +08:00
    我家里一个上网本, 2g 内存, atom 的 cpu , 250 的 sata 硬盘,爬了 几千万的数据,还做分析。你这硬件我都很口水好么==
    hpeng
        68
    hpeng  
       2017-04-24 22:28:48 +08:00 via iPhone
    港真,爬个数据要给我这么大内存我就偷笑了,又不在这台机上处理。我就不信要多差的技术的爬虫才会用到 16g 内存不够用的,带宽给足,什么都好说。
    victory
        69
    victory  
       2017-04-25 04:05:37 +08:00
    可以去华强北组一个二手服务器来他个 64G 内存 而且 2011 年服务器肯定用的 DDR3 内存 现在 DDR3 洋垃圾内存白菜价
    Miy4mori
        70
    Miy4mori  
       2017-04-25 04:55:11 +08:00 via iPhone
    @gouchaoer 同意, mongo 真的是不堪大用
    Leafove
        71
    Leafove  
       2017-04-25 08:18:03 +08:00
    员工工资都发不起结果 CEO 整天在整人工智能的公司我都见过
    phpiis
        72
    phpiis  
       2017-04-25 08:23:59 +08:00
    先爬再说啊,赚到钱了自然可以游说升级服务器
    dsg001
        73
    dsg001  
       2017-04-25 09:05:56 +08:00
    家用 pc 都不止这个配置吧
    wizardoz
        74
    wizardoz  
       2017-04-25 09:10:55 +08:00
    为什么不可以搞?硬件等到不够用的时候再升级有什么问题?
    jianghu52
        75
    jianghu52  
       2017-04-25 09:31:08 +08:00
    跟你说个真实的事情。我们公司,现在 3 台机器。 4G 内存内存,两台 python ,一台 java ,用了 2 条联通,一条电信。一个月,一台机器爬两百万条数据。你知道怎么搞定 IP 池的么。断线换 IP !
    yanzixuan
        76
    yanzixuan  
       2017-04-25 09:35:53 +08:00
    @jianghu52 没啥不对。。我感觉你们公司好机智的呢。
    yanzixuan
        77
    yanzixuan  
       2017-04-25 09:38:08 +08:00
    @Miy4mori mongo 除了吃内存,不能自动回收,也没啥缺点。。。
    cnfzv
        78
    cnfzv  
    OP
       2017-04-25 10:01:28 +08:00
    @jyf 是的,都打算往上面做,但是每一个往上走的,要设备没设备,要人没人,一个 sqlserver 把硬盘跑的满满的
    cnfzv
        79
    cnfzv  
    OP
       2017-04-25 10:03:08 +08:00
    @phpiis
    @roist 没错 zf 项目,钱已经收到了,再想拿就是另外的项目了,现在就是后续的东西,感觉和技术支持一样
    cnfzv
        80
    cnfzv  
    OP
       2017-04-25 10:06:45 +08:00
    @hpeng
    @wdlth 没错 ,爬虫、存储、处理都在一个 8g 的服务器上,非 raid 磁盘,另外两个是添头,其他业务在上面,我只是拿来跑个爬虫而已。
    zhengxiaowai
        81
    zhengxiaowai  
       2017-04-25 10:10:28 +08:00
    管爬不管修
    baoguok
        82
    baoguok  
       2017-04-25 10:11:08 +08:00
    @server 绝对够了
    xiaoyu9527
        83
    xiaoyu9527  
       2017-04-25 10:12:38 +08:00
    @jianghu52 断线换 IP 的效率好么? 每次重播都是不同的 IP 么?
    10years
        84
    10years  
       2017-04-25 10:27:17 +08:00
    反正爬数据是够了.
    xiaoyang7545
        85
    xiaoyang7545  
       2017-04-25 10:27:19 +08:00
    现在。。大数据这个东西。。概念模糊。。多大的数据才算大数据。。所以好多人喊着做大数据的口号,其实做的就那么点屁大的东西
    firefox12
        86
    firefox12  
       2017-04-25 11:11:19 +08:00
    @razrlele 下面很多人都做到了,不难的,爬京东是垂直网站,做好匹配 很快的, cpu 会是瓶颈,用正则和不用,性能差别不小,但是对垂直网站而言简单。 那时候京东不过 50 万种商品,现在大概几百万种了。
    herozzm
        87
    herozzm  
       2017-04-25 11:45:50 +08:00
    面对 lz 不想说什么了
    Tunar
        88
    Tunar  
       2017-04-25 12:02:44 +08:00
    数据具体什么级别啊
    mathgl
        89
    mathgl  
       2017-04-25 12:11:05 +08:00
    sqlserver 挺好的,没啥问题,当然要是没钱买是另外一件事了。
    allgy
        90
    allgy  
       2017-04-25 14:01:57 +08:00
    我们服务器 2G
    alphadog619
        91
    alphadog619  
       2017-04-25 14:41:54 +08:00
    凑热闹的公司
    BlackCat02
        92
    BlackCat02  
       2017-04-25 18:11:42 +08:00
    16G 是够磕碜。。公司分的开发机还有 32G 内存
    allansun
        93
    allansun  
       2017-04-25 19:11:45 +08:00
    在用 512M 内存小机器跑 Redis 的人飘过。。。。
    imherer
        94
    imherer  
       2017-04-25 19:17:45 +08:00
    我们服务器全是 1CPU 1 内存的
    imherer
        95
    imherer  
       2017-04-25 19:18:08 +08:00
    @imherer 少了个 G , 1G 内存
    Nitromethane
        96
    Nitromethane  
       2017-04-25 19:29:06 +08:00
    是比我们实验室的机器少点~
    1000 万的量还不够大数据的标准~实验室机器上屯了 15T 脱敏的数据。。
    aev2ex
        97
    aev2ex  
       2017-04-26 10:33:00 +08:00
    @cnfzv 现在的公司也是,不重视技术,老板心里永远觉得技术就应该服务于销售和运营,对技术偏见很大,而且成长空间很有限,都不想待了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2789 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 07:47 · PVG 15:47 · LAX 23:47 · JFK 02:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.