<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body style="overflow-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;">
<div style="overflow-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;">
Hi,
<div><br>
</div>
<div><b>Background</b>: I'm the developer of the <a href="https://github.com/microsoft/torchgeo">TorchGeo</a> software library. TorchGeo is a machine learning library that heavily relies on GDAL (via rasterio/fiona) for satellite imagery I/O.</div>
<div><br>
</div>
<div>One of our primary concerns is ensuring that we can load data from disk fast enough to keep the GPU busy during model training. Of course, satellite imagery is often distributed in large files that make this challenging. We use various tricks to optimize
 performance (COGs, windowed reading, caching, compression, parallel workers, etc.). In our initial <a href="https://arxiv.org/abs/2111.08872">paper</a>, we chose to create our own arbitrary I/O benchmarking dataset composed of 100 Landsat scenes and 1 CDL
 map. See Figure 3 for the results, and Appendix A for the experiment details.</div>
<div><br>
</div>
<div><b>Question</b>: is there an official dataset that the GDAL developers use to benchmark GDAL itself? For example, if someone makes a change to how GDAL handles certain I/O operations, I assume the GDAL developers will benchmark it to see if I/O is now
 faster or slower. I'm envisioning experiments similar to https://kokoalberti.com/articles/geotiff-compression-optimization-guide/ for various file formats, compression levels, block sizes, etc.</div>
<div><br>
</div>
<div>If such a dataset doesn't yet exist, I would be interested in creating one and publishing a paper on how this can be used to develop libraries like GDAL and TorchGeo.</div>
<div><br>
<div>
<div><b>Dr. Adam J. Stewart</b></div>
<div>Technical University of Munich</div>
<div>School of Engineering and Design</div>
<div>Data Science in Earth Observation</div>
</div>
<br>
</div>
</div>
</body>
</html>