处理比较大的数据集的时候，单机 spark 会比 pandas 更快吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 999 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近因为需求要处理几十到两百 G 的 CSV 文件，pandas 感觉跑得比较慢，而且貌似是单核？求问有什么好用一点的包吗，单机的 spark 可以吗胜任吗？内存大概近 500g

pandas

Spark

单机

csv

11 条回复 • 2022-04-15 21:07:33 +08:00

ipwx

2022-04-03 01:26:48 +08:00

我很好奇你的 pandas 写法是啥样子的

nuistzhou

2022-04-03 02:27:56 +08:00 via iPhone

试试 Dask ？

MeePawn666

2022-04-03 02:49:12 +08:00 via Android

非分布式场景 spark 没多快吧。考虑到你内存大于数据集，是计算密集型的话多核 /线程确实会有帮助，可以考虑 mkl, openmp 之类的？话说 numpy 其实挺快的了，处理数据应该足够。

yech1990

2022-04-03 07:04:18 +08:00 via Android

这个数量级就得考虑 pandas 的增强版本了，类似 https://github.com/pola-rs/polars

SuperXX

2022-04-03 08:59:28 +08:00

我遇到过很多次 pandas 的速度问题，建议直接换 julia 语言，速度提升不是一点点的

SuperXX

2022-04-03 09:03:28 +08:00

@yech1990 震惊，比 julia 还快
https://h2oai.github.io/db-benchmark/

512357301

2022-04-03 12:02:45 +08:00 via Android

试试 clickhouse

INCerry

2022-04-03 15:32:36 +08:00

其实单机 spark 还不如你写个 for 循环来得快

MTMT

2022-04-03 16:59:51 +08:00 via Android

@nuistzhou @512357301 感谢推荐，目前正在尝试这一类的包

@SuperXX 感谢推荐，之前不太了解，看来值得学习一下

@yech1990 感谢推荐，看 benchmark 感觉 polars 真是太强了

@MeePawn666 @INCerry 感谢解答，不太了解 spark ，所以不知道单机版什么情况，想着单机版会不会利用多进程，这样可能比单核还是快一些

ohayoo

2022-04-13 17:48:02 +08:00

@yech1990 请问下大佬，pandas 读大文件的时候有 chunksize 参数,如
with pd.read_csv(file, chunksize=50000) as reader:
然后 for 循环这个 reader

想请问下 polars 的类似 chunksize 要怎么设置？看官方文档一直就没看懂，不设置的话读大文件就报内存分配失败

yech1990

2022-04-15 21:07:33 +08:00 via Android

@ohayoo batch_size?