V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
LYEHIZRF
V2EX  ›  Python

看到一道面试题,多线程适合用来做大量文件的读取吗

  •  
  •   LYEHIZRF · 2022-03-16 22:24:13 +08:00 · 4096 次点击
    这是一个创建于 1017 天前的主题,其中的信息可能已经有所发展或是发生改变。

    去找磁盘下所有指定扩展名的文件,打开文件去找指定规则的内容,然后生成一个报表。 如果文件特别多要如何处理(考察多线程以及分布式)。

    threading 和 multiprocessing 哪个更适合呢?

    13 条回复    2022-03-17 19:08:47 +08:00
    jones2000
        1
    jones2000  
       2022-03-16 22:30:41 +08:00
    瓶颈不在读文件, 瓶颈是你合并报表程序的处理能力, 假如是分布式 1 次读几百万个文件,1s 发送 1T 的数据过来, 你生成报表的程序能顶的住吗?
    antipro
        2
    antipro  
       2022-03-16 22:34:06 +08:00 via Android
    哪类磁盘 1 秒读 1T ?我觉得读取本身不需要多线程。
    sparky
        3
    sparky  
       2022-03-16 22:40:36 +08:00 via Android
    @jones2000 加 mq 多消费者可以解决吧
    zhouAndy
        4
    zhouAndy  
       2022-03-16 22:43:32 +08:00
    这个题考察的点 很基础 读文件的瓶颈在磁盘的 IO 上, 上多线程并不管用,,,文件读完后的处理上多线程才有意义
    hallDrawnel
        5
    hallDrawnel  
       2022-03-16 23:05:07 +08:00
    如果从多个磁盘读写会有差异
    mhycy
        6
    mhycy  
       2022-03-16 23:13:59 +08:00
    需要看目标磁盘的结构决定是否多线程
    如果是磁盘,单线程效率远高于多线程
    软件本身可以多线程实现异步队列来做后续处理
    但读取前端受限于 HDD 只能单线程操作,这是原理决定的

    如果是 NVME ,多进程,或者异步 IO
    mhycy
        7
    mhycy  
       2022-03-16 23:14:43 +08:00
    接上补充,SATA SSD 需要考虑并发性能,这货的承载力没有 NVME 盘那么高
    ClericPy
        8
    ClericPy  
       2022-03-16 23:32:41 +08:00
    说的有点像读取百万小碎文件时候的瓶颈如何解决的事情, 联想到现公司被一句 cat /xxxxx/xxxxxxxxx/**/* |gzip -d 处理二十万碎文件整的真叫死去活来了

    多进程把 n 个核心都用上(而不是每个文件开一个进程, 那切换开销大到吓人)有点用, 多线程流式读文件应该也有点用毕竟从磁盘读入内存 IO 瓶颈也挺大. 脑子里蹦出 HDF5 / mmap / 零拷贝 啥的, 但是想不起来有没有关系
    Donahue
        9
    Donahue  
       2022-03-17 00:56:10 +08:00
    @ClericPy 多线程也可以把 n 个核心都用上吧, 又不是 python 有 jit 锁
    vance123
        10
    vance123  
       2022-03-17 01:02:46 +08:00 via Android
    我有一次用 Python 处理百万个 html 文件,远远达不到 IO 瓶颈,解释性语言的开销太大了
    westoy
        11
    westoy  
       2022-03-17 01:22:08 +08:00
    @ClericPy

    xargs -P N

    @Donahue

    python 躺着中了一枪, 它家 zlib 和 IO 都释放 GIL 的, 没锁.......
    biubiuF
        12
    biubiuF  
       2022-03-17 12:40:23 +08:00
    多线程查找,读取的话瓶颈在 io 单线程效率最高,数据处理再多线程,扇入扇出模型
    Donahue
        13
    Donahue  
       2022-03-17 19:08:47 +08:00
    @westoy 哈哈哈哈我基础知识不牢固
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2687 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 03:57 · PVG 11:57 · LAX 19:57 · JFK 22:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.