<div dir="ltr"><div>Hi Markus, </div><div>I have compile the GRASS7.2.3svn</div><div><br></div><div>r.stream.extract elevation=elv  accumulation=upa threshold=0.5    depression=dep     direction=dir  stream_raster=stream memory=45000 --o --verbose </div><div><br></div><div>with a small area</div><div><div><br></div><div>expr 600 \*  310  = 186 000 and everything works fine. </div></div><div><br></div><div>If I enlarge the area </div><div>expr  72870 \* 80040  = 5 832 514 800<br></div><div><br></div><div>I get the following warning  </div><div><br></div><div>16.67% of data are kept in memory</div><div>Will need up to 293.52 GB (300563 MB) of disk space</div><div>Creating temporary files...</div><div>Loading input raster maps...</div><div>0..3..6..9..12..15..18..21..24<wbr>..27..30..33..36..39..42..45..<wbr>48..51..54..57..60..63..66..<wbr>69..72..75..78..81..84..87..<wbr>90..93..96..99..100</div><div>Initializing A* search...</div><div>0..WARNING: Segment pagein: read EOF</div><div>WARNING: segment lib: put: pagein failed</div><div>WARNING: Unable to write segment file</div><div>WARNING: Segment pagein: read EOF</div><div><br></div><div>and than the stream is not created. </div><div>Is something due with  compile of the GRASS7.2.3svn ? </div><div>or something else? </div><div><br></div><div>Concerning the threshold: I'm using area-flow-accumulation expressed in km2. So this means that each pixel have a value of the upper stream sum-area in km2. So if I fix the threshold to 0.5 means that my stream will start when all the cells below have value > 0.5. I have check and look correct to me, in fact my smallest upper stream basin have 7 cell 90*90  ( ~ 1/2 km2).       </div><div><br></div><div>Thank you </div><div>Giuseppe</div><div class="gmail_extra"><br><div class="gmail_quote">On 1 November 2017 at 17:52, Markus Metz <span dir="ltr"><<a href="mailto:markus.metz.giswork@gmail.com" target="_blank">markus.metz.giswork@gmail.com</a><wbr>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><span><div><br><br>On Wed, Nov 1, 2017 at 10:41 PM, Giuseppe Amatulli <<a href="mailto:giuseppe.amatulli@gmail.com" target="_blank">giuseppe.amatulli@gmail.com</a>> wrote:<br>><br>> Thanks again!! <br>><br>> I'm working with a area-flowaccumulation so the 0.5 threshold means 0.5 km2, which is 90m * 90m * 60 cell.<br><br></div></span>I forgot to mention that the unit of the threshold option is cells, not squared map units. That means you need to change the threshold value.<br><br></div>Markus M<div><div class="m_1554033028441867408gmail-m_-7986501482087640688h5"><br><div><div><br>> My intention is prune back the stream later on with a machine learning procedure. I will be carefully look not to overpass the 2,147,483,647 detected stream segments. <br>><br>> To reduce as much as possible  I/O I save the *.tif file in the /dev/shm of each node, read then with r.external and build up the location on the flight in each /tmp. So, it quite fast. I will try to increase a bit the RAM.<br>><br>> Will post later how is going. <br>> Best <br>> Giuseppe<br>>  <br>><br>><br>><br>><br>><br>> On 1 November 2017 at 17:12, Markus Metz <<a href="mailto:markus.metz.giswork@gmail.com" target="_blank">markus.metz.giswork@gmail.com</a><wbr>> wrote:<br>>><br>>><br>>><br>>> On Wed, Nov 1, 2017 at 7:15 PM, Giuseppe Amatulli <<a href="mailto:giuseppe.amatulli@gmail.com" target="_blank">giuseppe.amatulli@gmail.com</a>> wrote:<br>>> ><br>>> > Thanks Markus!!<br>>> > I will test and I will let you know how it works.<br>>><br>>> Your feedback is very helpful!<br>>> ><br>>> > I have few  more questions<br>>> > 1) now how much is the upper limit matrix cell number that r.stream.extract can handle?<br>>><br>>> About 1.15e+18 cells.<br>>><br>>> Another limitation is the number of detected stream segments. This must not be larger than 2,147,483,647 streams, therefore you need to figure out a reasonable threshold with a smaller test region. A threshold of 0.5 is definitively too small, no matter how large or small the input is. Threshold should typically be larger than 1000, but is somewhat dependent on the resolution of the input. As a rule of thumb, with a coarser resolution, a smaller threshold might be suitable, with a higher resolution, the threshold should be larger. Testing different threshold values in a small subset of the full region can safe a lot of time.<br>>><br>>> > 2) is the r.stream.basins add-on subjects to the same limitation? In case would be possible to update also for  r.stream.basins?<br>>><br>>> The limitation in r.watershed and r.stream.extract comes from the search for drainage directions and flow accumulation. The other r.stream.* modules should support large input data, as long as the number of stream segments does not exceed 2,147,483,647.<br>>><br>>> > 3) is r.stream.extract support the use of multi-threaded through openMP? Would be difficult implement?<br>>><br>>> In your case, only less than 13% of temporary data are kept in memory. Parallelization with openMP or similar will not help here, your CPU will run only at less than 20% with one thread anyway. The limit is disk I/O. You can make it faster by using more memory and/or using a faster disk storage device.<br>>><br>>> Markus M <br>>> ><br>>> > Best<br>>> > Giuseppe<br>>> ><br>>> ><br>>> >  <br>>> ><br>>> ><br>>> ><br>>> ><br>>> > On 31 October 2017 at 15:54, Markus Metz <<a href="mailto:markus.metz.giswork@gmail.com" target="_blank">markus.metz.giswork@gmail.com</a><wbr>> wrote:<br>>> >><br>>> >><br>>> >><br>>> >> On Mon, Oct 30, 2017 at 1:42 PM, Giuseppe Amatulli <<a href="mailto:giuseppe.amatulli@gmail.com" target="_blank">giuseppe.amatulli@gmail.com</a>> wrote:<br>>> >> ><br>>> >> > Hi,<br>>> >> > I'm using the r.stream.extract grass command<br>>> >> ><br>>> >> > r.stream.extract elevation=elv  accumulation=upa threshold=0.5    depression=dep     direction=dir  stream_raster=stream memory=35000 --o --verbose<br>>> >> ><br>>> >> > where the elv is raster of 142690 *  80490 = 11,485,118,100 cell<br>>> >> ><br>>> >> > and I get this error<br>>> >> ><br>>> >> > 12.97% of data are kept in memory<br>>> >> > Will need up to 293.52 GB (300563 MB) of disk space<br>>> >> > Creating temporary files...<br>>> >> > Loading input raster maps...<br>>> >> > 0..3..6..9..12..15..18..21..24<wbr>..27..30..33..36..39..42..45..<wbr>48..51..54..57..60..63..66..69<wbr>..72..75..78..81..84..87..90..<wbr>93..96..99..100<br>>> >> > ERROR: Unable to load input raster map(s)<br>>> >><br>>> >> This error is caused by integer overflow because not all variables necessary to support such large maps were 64 bit integer.<br>>> >><br>>> >> Fixed in trunk and relbr72 with r71620,1, and tested with a DEM with 172800 * 67200 = 11,612,160,000 cells: r.stream.extract finished successfully in 18 hours (not a HPC, a standard desktop maschine with 32 GB of RAM and a 750 GB SSD).<br>>> >> ><br>>> >> > According to the help manual the memory=35000 should be set in according to the overall memory available. I set the HPC upper memory limit to 40G.<br>>> >> ><br>>> >> > I try several combination of these parameters  but i still get the same error.<br>>> >> > If the r.stream.extract is based on r.watershed than the segmentation  library should be able to handle a huge raster.<br>>> >><br>>> >> r.stream.extract is based on a version of r.watershed that did not support yet such huge raster maps, therefore support for such huge raster maps needed to be added to r.stream.extract separately.<br>>> >><br>>> >> ><br>>> >> > Anyone know how to over pass this limitation/error ?<br>>> >><br>>> >> Please use the latest GRASS 7.2 or GRASS 7.3 version from svn.<br>>> >><br>>> >> Markus M<br>>> >><br>>> >> ><br>>> >> > Thank you<br>>> >> > Best<br>>> >> > --<br>>> >> > Giuseppe Amatulli, Ph.D.<br>>> >> ><br>>> >> > Research scientist at<br>>> >> > Yale School of Forestry & Environmental Studies<br>>> >> > Yale Center for Research Computing<br>>> >> > Center for Science and Social Science Information<br>>> >> > New Haven, 06511<br>>> >> > Teaching: <a href="http://spatial-ecology.org" target="_blank">http://spatial-ecology.org</a><br>>> >> > Work:  <a href="https://environment.yale.edu/profile/giuseppe-amatulli/" target="_blank">https://environment.yale.edu/<wbr>profile/giuseppe-amatulli/</a><br>>> >> ><br>>> >> > ______________________________<wbr>_________________<br>>> >> > grass-user mailing list<br>>> >> > <a href="mailto:grass-user@lists.osgeo.org" target="_blank">grass-user@lists.osgeo.org</a><br>>> >> > <a href="https://lists.osgeo.org/mailman/listinfo/grass-user" target="_blank">https://lists.osgeo.org/mailma<wbr>n/listinfo/grass-user</a><br>>> >><br>>> ><br>>> ><br>>> ><br>>> > --<br>>> > Giuseppe Amatulli, Ph.D.<br>>> ><br>>> > Research scientist at<br>>> > Yale School of Forestry & Environmental Studies<br>>> > Yale Center for Research Computing<br>>> > Center for Science and Social Science Information<br>>> > New Haven, 06511<br>>> > Teaching: <a href="http://spatial-ecology.org" target="_blank">http://spatial-ecology.org</a><br>>> > Work:  <a href="https://environment.yale.edu/profile/giuseppe-amatulli/" target="_blank">https://environment.yale.edu/<wbr>profile/giuseppe-amatulli/</a><br>>><br>><br>><br>><br>> --<br>> Giuseppe Amatulli, Ph.D.<br>><br>> Research scientist at<br>> Yale School of Forestry & Environmental Studies<br>> Yale Center for Research Computing<br>> Center for Science and Social Science Information<br>> New Haven, 06511<br>> Teaching: <a href="http://spatial-ecology.org" target="_blank">http://spatial-ecology.org</a><br>> Work:  <a href="https://environment.yale.edu/profile/giuseppe-amatulli/" target="_blank">https://environment.yale.edu/<wbr>profile/giuseppe-amatulli/</a><br><br></div></div></div></div></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="m_1554033028441867408gmail-m_-7986501482087640688gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>Giuseppe Amatulli, Ph.D.<br><br>Research scientist at<br><span>Yale School of Forestry & Environmental Studies<br></span><span>Yale Center for Research Computing<br></span>Center for Science and Social Science Information<br>New Haven, 06511<br><div>
   Teaching: <a href="http://spatial-ecology.net" target="_blank">http://spatial-ecology.net</a></div> 
  
   Work:  <a href="https://environment.yale.edu/profile/giuseppe-amatulli/" target="_blank">https://environment.yale.edu/p<wbr>rofile/giuseppe-amatulli/</a> <br></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
</div></div>