V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  yxy2829  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
2023-01-18 14:05:55 +08:00
回复了 Macin 创建的主题 分享创造 兔年红包封面,欢迎领取👏
已领 ,感谢!
2023-01-18 14:05:31 +08:00
回复了 also1412 创建的主题 分享创造 分享一个喜庆但又不失科技感的红包封面,希望你喜欢
感谢分享,已领
2019-05-08 20:35:06 +08:00
回复了 native 创建的主题 程序员 如何判定一个人技术特别牛?
看他是否穿女装😛
2019-01-29 17:49:52 +08:00
回复了 justin2018 创建的主题 分享发现 防止摄像头“偷窥”你~,软件推荐
很不错,我选择创可贴
@ydxred 有新发现哈哈
看快捷方式,修改 chrome.exe 名称
2018-04-02 17:10:55 +08:00
回复了 lukeshawn 创建的主题 Python 终端打开 py 文件显示 permission denied
加 sudo
2018-03-08 18:39:15 +08:00
回复了 tedchen 创建的主题 酷工作 [北京]百观 Lab - Python 数据爬虫工程师[17-26K]
你好,现在还在招吗?
2017-11-01 13:40:17 +08:00
回复了 zhengying 创建的主题 Python 小白加了一个 Python 交流群,然后被 T 了 好气。
19 楼说的还是有道理的
2017-10-26 11:20:02 +08:00
回复了 Terry05 创建的主题 程序员 还有人在玩树霉派么,现在还有什么实用的玩法?
当路由器用。。。
也运行爬虫。。。
2017-10-25 14:43:27 +08:00
回复了 yxy2829 创建的主题 Python pip install 一些包总是超时, pip 不能用了吗?
@gaojin
@ThinkZ
非常感谢,原来是使用的国外源,现在换成国内的了,正常了
2017-10-25 14:34:36 +08:00
回复了 yxy2829 创建的主题 Python pip install 一些包总是超时, pip 不能用了吗?
试了豆瓣的镜像源可以了。。。
2017-10-10 14:07:03 +08:00
回复了 chen2016 创建的主题 程序员 写爬虫的时候你遇到过哪些厉害的反爬手段?
各种验证码算吗?一堆汉字里面选四字成语,按顺序点击
2017-07-26 14:49:50 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
@tangzipeng 很厉害,函数可以获得正确的结果,非常感谢
@xiaobai987 解密代码从哪里可以找到呢?
2017-07-24 16:26:45 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
@lc4t
@xiaobai987
非常感谢,我看一看
2017-07-24 16:03:52 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
@niuoh 非常感谢
2017-07-24 15:53:05 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
@xiaobai987 好的
2017-07-24 15:36:51 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
@VicYu ip 可以正确获取,端口有问题
2017-07-24 15:34:38 +08:00
回复了 yxy2829 创建的主题 Python Python -爬虫-抓取代理 ip 问题
代码如下:

import requests
from lxml import etree

class Proxy(object):
def __init__(self):
self.tm_url = 'http://www.goubanjia.com/free/anoy/%E9%80%8F%E6%98%8E/index{page}.shtml' # 1,2,3

def get_proxy(self, url):
r = requests.get(url, headers={
'User-Agent': 'Mozilla/5.0 (Windows x86; rv:19.0) Gecko/20100101 Firefox/19.0,'
})
html = etree.HTML(r.content)
all_proxy = html.xpath('//table//tr[td]')
for i in all_proxy:
ip_port = ''.join(i.xpath('./td[1]/span[@style]/text()|'
'./td[1]/div[@style]/text()|'
'./td[1]/p[@style]/text()|'
'./td[1]/text()|'
'./td[1]/span[@class]/text()'))
ip, port = ip_port.split(':')
anonymous = i.xpath('./td[2]/a/text()')[0]
http_type = ''.join(i.xpath('./td[3]/a/text()')) or 'http'
proxy = (ip, port, anonymous, http_type)
yield proxy

def start(self):
for page in range(1, 3):
tm_url = self.tm_url.format(page=page)
for proxy in self.get_proxy(tm_url):
yield proxy
if __name__ == '__main__':
p = Proxy()
for i in p.start():
print i
2017-07-20 22:55:59 +08:00
回复了 yxy2829 创建的主题 Python Python 模块导入问题
import sys
sys.path.append('../')
from aaa import a
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2797 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 02:49 · PVG 10:49 · LAX 18:49 · JFK 21:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.