Process sparse textures better by finding pages that have data

5 days ago · c81921d37e
8 changed files with 232 additions and 31 deletions
--- a/src/video_core/renderer_opengl/gl_texture_cache.cpp
+++ b/src/video_core/renderer_opengl/gl_texture_cache.cpp
@ -652,7 +652,7 @@ void TextureCacheRuntime::BlitFramebuffer(Framebuffer* dst, Framebuffer* src,

 void TextureCacheRuntime::AccelerateImageUpload(Image& image, const StagingBufferMap& map,
                                                std::span<const SwizzleParameters> swizzles,
-                                                u32 z_start, u32 z_count) {
+                                                u32 z_start, u32 z_count, std::span<const u8> slice_has_data) {
    switch (image.info.type) {
    case ImageType::e2D:
        if (IsPixelFormatASTC(image.info.format)) {
--- a/src/video_core/renderer_opengl/gl_texture_cache.h
+++ b/src/video_core/renderer_opengl/gl_texture_cache.h
@ -118,9 +118,9 @@ public:
                         const Region2D& src_region, Tegra::Engines::Fermi2D::Filter filter,
                         Tegra::Engines::Fermi2D::Operation operation);

-    void AccelerateImageUpload(Image& image, const StagingBufferMap& map,
+    void AccelerateImageUpload(Image &image, const StagingBufferMap &map,
                               std::span<const VideoCommon::SwizzleParameters> swizzles,
-                               u32 z_start, u32 z_count);
+                               u32 z_start, u32 z_count, std::span<const u8> slice_has_data={});

    void InsertUploadMemoryBarrier();

--- a/src/video_core/renderer_vulkan/vk_compute_pass.cpp
+++ b/src/video_core/renderer_vulkan/vk_compute_pass.cpp
@ -763,31 +763,59 @@ void BlockLinearUnswizzle3DPass::Unswizzle(
    Image& image,
    const StagingBufferRef& swizzled,
    std::span<const VideoCommon::SwizzleParameters> swizzles,
-    u32 z_start, u32 z_count)
+    u32 z_start, u32 z_count,
+    std::span<const u8> slice_has_data)
 {
    using namespace VideoCommon::Accelerated;

    const u32 MAX_BATCH_SLICES = (std::min)(z_count, image.info.size.depth);

-    if (!image.has_compute_unswizzle_buffer) {
+    if (image.has_compute_unswizzle_buffer) {
        // Allocate exactly what this batch needs
-        image.AllocateComputeUnswizzleBuffer(MAX_BATCH_SLICES);
+        using VideoCore::Surface::BytesPerBlock;
+        const u32 bx       = (image.info.size.width  + 3) / 4;
+        const u32 by       = (image.info.size.height + 3) / 4;
+        const VkDeviceSize needed =
+            static_cast<VkDeviceSize>(bx) * by * MAX_BATCH_SLICES *
+            BytesPerBlock(image.info.format);
+        if (image.compute_unswizzle_buffer_size < needed) {
+            scheduler.Finish();
+        }
    }

+    image.AllocateComputeUnswizzleBuffer(MAX_BATCH_SLICES);
+
    ASSERT(swizzles.size() == 1);
    const auto& sw = swizzles[0];
    const auto params = MakeBlockLinearSwizzle3DParams(sw, image.info);

    const u32 blocks_x = (image.info.size.width  + 3) / 4;
    const u32 blocks_y = (image.info.size.height + 3) / 4;
+    const u32 bytes_per_block = 1u << params.bytes_per_block_log2;

    scheduler.RequestOutsideRenderPassOperationContext();
    for (u32 z_offset = 0; z_offset < z_count; z_offset += MAX_BATCH_SLICES) {
        const u32 current_chunk_slices = (std::min)(MAX_BATCH_SLICES, z_count - z_offset);
        const u32 current_z_start = z_start + z_offset;

-        UnswizzleChunk(image, swizzled, sw, params, blocks_x, blocks_y,
-                       current_z_start, current_chunk_slices);
+        bool chunk_has_data = slice_has_data.empty();
+        if (!chunk_has_data) {
+            const u32 z_end = current_z_start + current_chunk_slices;
+            for (u32 z = current_z_start; z < z_end; ++z) {
+                if (z < static_cast<u32>(slice_has_data.size()) && slice_has_data[z] != 0) {
+                    chunk_has_data = true;
+                    break;
+                }
+            }
+        }
+
+        if (chunk_has_data) {
+            UnswizzleChunk(image, swizzled, sw, params, blocks_x, blocks_y,
+                           current_z_start, current_chunk_slices);
+        } else {
+            UnswizzleZeroChunk(image, blocks_x, blocks_y, bytes_per_block,
+                               current_z_start, current_chunk_slices);
+        }
    }
 }

@ -937,6 +965,103 @@ void BlockLinearUnswizzle3DPass::UnswizzleChunk(
    });
 }

+// I feel there was a better way to do this like a image.Clear or something but I couldn't find anything or am blind.
+// So enjoy this mess
+void BlockLinearUnswizzle3DPass::UnswizzleZeroChunk(
+    Image& image,
+    u32 blocks_x, u32 blocks_y,
+    u32 bytes_per_block,
+    u32 z_start, u32 z_count)
+{
+    ASSERT(image.has_compute_unswizzle_buffer);
+
+    const VkBuffer out_buffer = *image.compute_unswizzle_buffer;
+    const VkImage  dst_image  = image.Handle();
+    const VkImageAspectFlags aspect = image.AspectMask();
+    const u32 image_width  = image.info.size.width;
+    const u32 image_height = image.info.size.height;
+    const bool is_first_chunk = (z_start == 0);
+
+    // Size of one unswizzled z-slice in the output buffer (bytes).
+    const VkDeviceSize output_slice_bytes =
+        static_cast<VkDeviceSize>(blocks_x) * blocks_y * bytes_per_block;
+    const VkDeviceSize fill_size = output_slice_bytes * z_count;
+
+    scheduler.Record([out_buffer, dst_image, aspect, z_start, z_count,
+                      fill_size, is_first_chunk, image_width, image_height
+                      ](vk::CommandBuffer cmdbuf) {
+
+        if (dst_image == VK_NULL_HANDLE || out_buffer == VK_NULL_HANDLE) {
+            return;
+        }
+
+        // Zero the output buffer region that CopyBufferToImage will read.
+        cmdbuf.FillBuffer(out_buffer, 0, fill_size, 0u);
+
+        const VkBufferMemoryBarrier buffer_barrier{
+            .sType = VK_STRUCTURE_TYPE_BUFFER_MEMORY_BARRIER,
+            .pNext = nullptr,
+            .srcAccessMask = VK_ACCESS_TRANSFER_WRITE_BIT,
+            .dstAccessMask = VK_ACCESS_TRANSFER_READ_BIT,
+            .srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .buffer = out_buffer,
+            .offset = 0,
+            .size   = fill_size,
+        };
+        const VkImageMemoryBarrier pre_barrier{
+            .sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER,
+            .pNext = nullptr,
+            .srcAccessMask = is_first_chunk ? VkAccessFlags{}
+                           : static_cast<VkAccessFlags>(VK_ACCESS_TRANSFER_WRITE_BIT),
+            .dstAccessMask = VK_ACCESS_TRANSFER_WRITE_BIT,
+            .oldLayout = is_first_chunk ? VK_IMAGE_LAYOUT_UNDEFINED
+                       : VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
+            .newLayout = VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
+            .srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .image = dst_image,
+            .subresourceRange = {aspect, 0, 1, 0, 1},
+        };
+        cmdbuf.PipelineBarrier(
+            VK_PIPELINE_STAGE_TRANSFER_BIT,
+            VK_PIPELINE_STAGE_TRANSFER_BIT,
+            0, nullptr, buffer_barrier, pre_barrier
+        );
+
+        // Copy the zeroed buffer region into the correct Z position of the image.
+        const VkBufferImageCopy copy{
+            .bufferOffset      = 0,
+            .bufferRowLength   = 0,
+            .bufferImageHeight = 0,
+            .imageSubresource  = {aspect, 0, 0, 1},
+            .imageOffset       = {0, 0, static_cast<s32>(z_start)},
+            .imageExtent       = {image_width, image_height, z_count},
+        };
+        cmdbuf.CopyBufferToImage(out_buffer, dst_image,
+                                 VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL, copy);
+
+        // Transition image to GENERAL for subsequent shader reads/writes.
+        const VkImageMemoryBarrier post_barrier{
+            .sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER,
+            .pNext = nullptr,
+            .srcAccessMask = VK_ACCESS_TRANSFER_WRITE_BIT,
+            .dstAccessMask = VK_ACCESS_SHADER_READ_BIT | VK_ACCESS_SHADER_WRITE_BIT,
+            .oldLayout = VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
+            .newLayout = VK_IMAGE_LAYOUT_GENERAL,
+            .srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+            .image = dst_image,
+            .subresourceRange = {aspect, 0, 1, 0, 1},
+        };
+        cmdbuf.PipelineBarrier(
+            VK_PIPELINE_STAGE_TRANSFER_BIT,
+            VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT | VK_PIPELINE_STAGE_COMPUTE_SHADER_BIT,
+            0, nullptr, nullptr, post_barrier
+        );
+    });
+}
+
 MSAACopyPass::MSAACopyPass(const Device& device_, Scheduler& scheduler_,
                           DescriptorPool& descriptor_pool_,
                           StagingBufferPool& staging_buffer_pool_,
--- a/src/video_core/renderer_vulkan/vk_compute_pass.h
+++ b/src/video_core/renderer_vulkan/vk_compute_pass.h
@ -148,7 +148,8 @@ public:
    void Unswizzle(Image& image,
                   const StagingBufferRef& swizzled,
                   std::span<const VideoCommon::SwizzleParameters> swizzles,
-                   u32 z_start, u32 z_count);
+                   u32 z_start, u32 z_count,
+                   std::span<const u8> slice_has_data = {});

    void UnswizzleChunk(
        Image& image,
@ -158,6 +159,12 @@ public:
        u32 blocks_x, u32 blocks_y,
        u32 z_start, u32 z_count);

+    void UnswizzleZeroChunk(
+        Image& image,
+        u32 blocks_x, u32 blocks_y,
+        u32 bytes_per_block,
+        u32 z_start, u32 z_count);
+
 private:
    Scheduler& scheduler;
    StagingBufferPool& staging_buffer_pool;
--- a/src/video_core/renderer_vulkan/vk_texture_cache.cpp
+++ b/src/video_core/renderer_vulkan/vk_texture_cache.cpp
@ -1635,9 +1635,6 @@ Image::Image(const VideoCommon::NullImageParams& params) : VideoCommon::ImageBas
 Image::~Image() = default;

 void Image::AllocateComputeUnswizzleBuffer(u32 max_slices) {
-    if (has_compute_unswizzle_buffer)
-        return;
-
    using VideoCore::Surface::BytesPerBlock;

    const u32 block_bytes  = BytesPerBlock(info.format); // 8 for BC1, 16 for BC6H
@ -1654,7 +1651,13 @@ void Image::AllocateComputeUnswizzleBuffer(u32 max_slices) {
        static_cast<u64>(blocks_y) *
        static_cast<u64>(blocks_z);

-    compute_unswizzle_buffer_size = block_count * block_bytes;
+    const VkDeviceSize needed_size = block_count * block_bytes;
+
+    if (has_compute_unswizzle_buffer && compute_unswizzle_buffer_size >= needed_size) {
+        return;
+    }
+
+    compute_unswizzle_buffer_size = needed_size;

    VkBufferCreateInfo ci{
        .sType = VK_STRUCTURE_TYPE_BUFFER_CREATE_INFO,
@ -2475,8 +2478,8 @@ void Framebuffer::CreateFramebuffer(TextureCacheRuntime& runtime,

 void TextureCacheRuntime::AccelerateImageUpload(
    Image& image, const StagingBufferRef& map,
-    std::span<const VideoCommon::SwizzleParameters> swizzles,
-    u32 z_start, u32 z_count) {
+    std::span<const VideoCommon::SwizzleParameters> swizzles, u32 z_start, u32 z_count,
+    std::span<const u8> slice_has_data) {

    if (IsPixelFormatASTC(image.info.format)) {
        return astc_decoder_pass->Assemble(image, map, swizzles);
@ -2496,7 +2499,7 @@ void TextureCacheRuntime::AccelerateImageUpload(
        image.info.resources.levels == 1 &&
        image.info.resources.layers == 1) {

-        return bl3d_unswizzle_pass->Unswizzle(image, map, swizzles, z_start, z_count);
+        return bl3d_unswizzle_pass->Unswizzle(image, map, swizzles, z_start, z_count, slice_has_data);
    }

    ASSERT(false);
--- a/src/video_core/renderer_vulkan/vk_texture_cache.h
+++ b/src/video_core/renderer_vulkan/vk_texture_cache.h
@ -90,9 +90,9 @@ public:
        return msaa_copy_pass.operator bool();
    }

-    void AccelerateImageUpload(Image&, const StagingBufferRef&,
+    void AccelerateImageUpload(Image &, const StagingBufferRef &,
                               std::span<const VideoCommon::SwizzleParameters>,
-                               u32 z_start, u32 z_count);
+                               u32 z_start, u32 z_count, std::span<const u8> slice_has_data={});

    void InsertUploadMemoryBarrier() {}

--- a/src/video_core/texture_cache/texture_cache.h
+++ b/src/video_core/texture_cache/texture_cache.h
@ -24,6 +24,7 @@
 #include "video_core/texture_cache/samples_helper.h"
 #include "video_core/texture_cache/texture_cache_base.h"
 #include "video_core/texture_cache/util.h"
+#include "video_core/texture_cache/accelerated_swizzle.h"
 #include "video_core/textures/decoders.h"

 namespace VideoCommon {
@ -1479,6 +1480,40 @@ void TextureCache<P>::TickAsyncUnswizzle() {
        const u32 aligned_height = height_blocks;
        task.bytes_per_slice = static_cast<size_t>(stride) * aligned_height;
        task.last_submitted_offset = 0;
+
+        task.is_sparse = True(image.flags & ImageFlagBits::Sparse);
+        if (task.is_sparse) {
+            std::memset(task.staging_buffer.mapped_span.data(), 0, task.total_size);
+
+            const auto segs =
+                gpu_memory->GetSubmappedRange(image.gpu_addr, image.guest_size_bytes);
+            task.sparse_segments.assign(segs.begin(), segs.end());
+
+            task.slice_has_data.assign(image.info.size.depth, 0u);
+
+            if (image.info.size.depth > 1 && !image.slice_offsets.empty()) {
+                const auto uploads = FullUploadSwizzles(task.info);
+                const auto sp = Accelerated::MakeBlockLinearSwizzle3DParams(
+                    uploads[0], task.info);
+                const u64 swizzled_slice_size = sp.slice_size;
+
+                for (const auto& [seg_gpu_addr, seg_size] : task.sparse_segments) {
+                    const u64 seg_start = seg_gpu_addr - image.gpu_addr;
+                    const u64 seg_end   = seg_start + seg_size;
+                    for (u32 z = 0; z < static_cast<u32>(image.info.size.depth); ++z) {
+                        if (task.slice_has_data[z]) continue; // already marked, skip
+                        const u64 slice_start = image.slice_offsets[z];
+                        const u64 slice_end   = slice_start + swizzled_slice_size;
+                        if (slice_start < seg_end && slice_end > seg_start) {
+                            task.slice_has_data[z] = 1u;
+                        }
+                    }
+                }
+            } else {
+                std::fill(task.slice_has_data.begin(), task.slice_has_data.end(), 1u);
+            }
+        }
+
        task.initialized = true;
    }

@ -1494,14 +1529,31 @@ void TextureCache<P>::TickAsyncUnswizzle() {
            copy_amount = (std::min)(dynamic_chunk, remaining);
        }

-        if (remaining > swizzle_chunk_size) {
+        if (swizzle_chunk_size > 0 && remaining > swizzle_chunk_size) {
            copy_amount = (copy_amount / task.bytes_per_slice) * task.bytes_per_slice;
            if (copy_amount == 0) copy_amount = task.bytes_per_slice;
        }

-        gpu_memory->ReadBlock(image.gpu_addr + task.current_offset,
-                              task.staging_buffer.mapped_span.data() + task.current_offset,
-                              copy_amount);
+        if (task.is_sparse) {
+            const size_t read_start = task.current_offset;
+            const size_t read_end   = task.current_offset + copy_amount;
+            u8* const staging_base  = task.staging_buffer.mapped_span.data();
+            for (const auto& [seg_gpu_addr, seg_size] : task.sparse_segments) {
+                const size_t seg_start = static_cast<size_t>(seg_gpu_addr - image.gpu_addr);
+                const size_t seg_end   = seg_start + seg_size;
+                const size_t ol_start  = (std::max)(seg_start, read_start);
+                const size_t ol_end    = (std::min)(seg_end,   read_end);
+                if (ol_start < ol_end) {
+                    gpu_memory->ReadBlock(image.gpu_addr + ol_start,
+                                          staging_base + ol_start,
+                                          ol_end - ol_start);
+                }
+            }
+        } else {
+            gpu_memory->ReadBlock(image.gpu_addr + task.current_offset,
+                                  task.staging_buffer.mapped_span.data() + task.current_offset,
+                                  copy_amount);
+        }
        task.current_offset += copy_amount;
    }

@ -1513,9 +1565,17 @@ void TextureCache<P>::TickAsyncUnswizzle() {
    const size_t bytes_ready = task.current_offset - task.last_submitted_offset;
    const u32 complete_slices = static_cast<u32>(bytes_ready / task.bytes_per_slice);

-    if( swizzle_slices_per_batch <= 0 ) {
-        runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(FullUploadSwizzles(task.info)), 0, image.info.size.depth);
-        task.last_submitted_offset += (static_cast<size_t>(image.info.size.depth) * task.bytes_per_slice);
+    const std::span<const u8> sparse_hint =
+        task.is_sparse ? std::span<const u8>(task.slice_has_data)
+                       : std::span<const u8>{};
+
+    if (swizzle_slices_per_batch <= 0 || swizzle_chunk_size == 0) {
+        const u32 z_start_full = static_cast<u32>(task.last_submitted_offset / task.bytes_per_slice);
+        const u32 remaining_slices_full = image.info.size.depth - z_start_full;
+        if (remaining_slices_full > 0) {
+            runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(FullUploadSwizzles(task.info)), z_start_full, remaining_slices_full, sparse_hint);
+            task.last_submitted_offset += (static_cast<size_t>(remaining_slices_full) * task.bytes_per_slice);
+        }
    }
    else {
        const u32 adaptive_batch = GetAdaptiveBatchSize(task, unswizzle_queue.size());
@ -1525,17 +1585,20 @@ void TextureCache<P>::TickAsyncUnswizzle() {
        const u32 slices_to_process = (std::min)(complete_slices, adaptive_batch);

        if (whole_texture) {
-            runtime.AccelerateImageUpload(image, task.staging_buffer,
-                                          FixSmallVectorADL(FullUploadSwizzles(task.info)), 0,
-                                          image.info.size.depth);
-            task.last_submitted_offset +=
-                (static_cast<size_t>(image.info.size.depth) * task.bytes_per_slice);
+            const u32 remaining_slices = task.info.size.depth - z_start;
+            if (remaining_slices > 0) {
+                runtime.AccelerateImageUpload(image, task.staging_buffer,
+                                              FixSmallVectorADL(FullUploadSwizzles(task.info)), z_start,
+                                              remaining_slices, sparse_hint);
+                task.last_submitted_offset +=
+                    (static_cast<size_t>(remaining_slices) * task.bytes_per_slice);
+            }
        } else if (complete_slices >= slices_to_process || (is_final_batch && complete_slices > 0)) {
            const u32 z_count = (std::min)(slices_to_process, task.info.size.depth - z_start);
            if (z_count > 0) {
                const auto uploads = FullUploadSwizzles(task.info);
                runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(uploads),
-                                              z_start, z_count);
+                                              z_start, z_count, sparse_hint);
                task.last_submitted_offset += (static_cast<size_t>(z_count) * task.bytes_per_slice);
            }
        }
--- a/src/video_core/texture_cache/texture_cache_base.h
+++ b/src/video_core/texture_cache/texture_cache_base.h
@ -139,6 +139,9 @@ class TextureCache : public VideoCommon::ChannelSetupCaches<TextureCacheChannelI
        size_t last_submitted_offset = 0;
        size_t bytes_per_slice;
        bool initialized = false;
+        bool is_sparse = false;
+        std::vector<u8> slice_has_data;
+        std::vector<std::pair<GPUVAddr, size_t>> sparse_segments;
    };

    struct BlitImages {