<div dir="ltr"><div><div>Hi Pietro,<br><br></div>Thanks for the suggestion, I will have a look at the documentation.<br><br></div>Paulo<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Feb 13, 2015 at 10:09 AM, Pietro <span dir="ltr"><<a href="mailto:peter.zamb@gmail.com" target="_blank">peter.zamb@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear Paulo,<br>
<span class=""><br>
On Fri, Feb 13, 2015 at 9:57 AM, Paulo van Breugel<br>
<<a href="mailto:p.vanbreugel@gmail.com">p.vanbreugel@gmail.com</a>> wrote:<br>
> I guess this is because the calculations are done in-memory? Any way to<br>
> avoid this memory problem when using large data sets (something like working<br>
> with memmap objects?)<br>
<br>
</span>With memmap you still have a limits of 2Gb I guess, you should try: dask<br>
<br>
Dask Array implements the NumPy ndarray interface using blocked<br>
algorithms, cutting up the large array into many small arrays. This<br>
lets us compute on arrays larger than memory using all of our cores.<br>
We coordinate these blocked algorithms using dask graphs.<br>
<br>
<a href="http://dask.readthedocs.org/en/latest/array.html" target="_blank">http://dask.readthedocs.org/en/latest/array.html</a><br>
<br>
I didn't have a chance to try it yet, but it support a numpy array<br>
syntax, and since you are using quite basic functionalities I think<br>
you should be able to work with it.<br>
<br>
All the best<br>
<span class="HOEnZb"><font color="#888888"><br>
Pietro<br>
</font></span></blockquote></div><br></div>