<div dir="ltr">Thanks Joe, will check this out</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jul 24, 2024 at 12:30 PM Joe Lee <<a href="mailto:hyoklee@hdfgroup.org">hyoklee@hdfgroup.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi, Michael!<br>
<br>
It's an interesting idea since Kerchunk can't handle HDF4 yet [1].<br>
OPeNDAP DMR++ now can handle HDF4 <br>
so I think Kerchunk can do, too.<br>
<br>
For GDAL, is there C++ binding for Kerchunk?<br>
I think that will be the main blocker for GDAL driver development.<br>
<br>
[1] <a href="https://github.com/hyoklee/kerchunk/wiki" rel="noreferrer" target="_blank">https://github.com/hyoklee/kerchunk/wiki</a><br>
<br>
---<br>
Reality is hierarchical. Store scientific reality in HDF for Spatial Computing.<br>
<br>
<br>
<br>
________________________________________<br>
From: gdal-dev <<a href="mailto:gdal-dev-bounces@lists.osgeo.org" target="_blank">gdal-dev-bounces@lists.osgeo.org</a>> on behalf of Michael Sumner via gdal-dev <<a href="mailto:gdal-dev@lists.osgeo.org" target="_blank">gdal-dev@lists.osgeo.org</a>><br>
Sent: Tuesday, July 23, 2024 17:37<br>
To: gdal-dev<br>
Subject: [gdal-dev] kerchunk<br>
<br>
Hi, is there any effort or thought into something like Python's kerchunk in GDAL?   (my summary of kerchunk is below)<br>
<br>
<a href="https://github.com/fsspec/kerchunk" rel="noreferrer" target="_blank">https://github.com/fsspec/kerchunk</a><br>
<br>
I'll be exploring the python outputs in detail and looking for hooks into where we might bring some of this tighter into GDAL.  This would work nicely inside the GTI driver, for example. But,  a *kerchunk-driver*? That would be in the family of raw/ drivers, my skillset won't have much to offer but I'm going to explore with some simpler examples.   It could even bring old HDF4 files into the fold, I think.<br>
<br>
It's a bit weird from a GDAL perspective to map the chunks in a format for which we have a driver, but there's definitely performance advantages and convenience for virtualizing huge disparate collections (even the simplest time-series-of-files in netcdf is nicely abstracted here for xarray, a super-charged VRT for xarray).<br>
<br>
Interested in any thoughts, feedback, pointers to related efforts ... thanks!<br>
<br>
(my take on) A description of kerchunk:<br>
<br>
kerchunk replaces the actual binary blobs on file in a Zarr with json references to a file/uri/object and the byte start and end values, in this way kerchunk brings formats like hdf/netcdf/grib into the fold of "cloud readiness" by having a complete separation of metadata from the actual storage. The information about those chunks (compression, type, orientation etc is stored in json also).<br>
<br>
(a Zarr  is a multidimensional version of a single-zoom-level image tiling, imagine every image tile as a potentially n-dimensional child block of a larger array. The blobs are stored like one zoom of an z/y/x tile server [[[v/]w/]y/]x way (with a position for each dimension of the array,  1, 2, 3, 4, or n, and z is not special, and with more general encoding possibilities than tif/png/jpeg provide.)  This scheme is extremely general,  literally a virtualized array-like abstraction on any storage, and with kerchunk you can transcend many legacy issues with actual formats.<br>
<br>
Cheers, Mike<br>
<br>
<br>
--<br>
Michael Sumner<br>
Research Software Engineer<br>
Australian Antarctic Division<br>
Hobart, Australia<br>
e-mail: <a href="mailto:mdsumner@gmail.com" target="_blank">mdsumner@gmail.com</a><mailto:<a href="mailto:mdsumner@gmail.com" target="_blank">mdsumner@gmail.com</a>><br>
</blockquote></div><br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr">Michael Sumner<br>Research Software Engineer<br>Australian Antarctic Division<br>Hobart, Australia<br>e-mail: <a href="mailto:mdsumner@gmail.com" target="_blank">mdsumner@gmail.com</a></div></div>