Added dynamic batch sizing to prevent backlogging (Untested)

2 weeks ago · f064eeffeb
2 changed files with 50 additions and 6 deletions
--- a/src/video_core/texture_cache/texture_cache.h
+++ b/src/video_core/texture_cache/texture_cache.h
@ -1397,6 +1397,39 @@ void TextureCache<P>::TickAsyncDecode() {
    }
 }

+template <class P>
+u32 TextureCache<P>::GetAdaptiveBatchSize(const PendingUnswizzle& task, size_t queue_size) const {
+    const u32 base_slices = swizzle_slices_per_batch;
+    const size_t texture_slices = task.info.size.depth;
+    const size_t texture_bytes = task.total_size;
+
+    constexpr size_t LARGE_BACKLOG = 4;
+    constexpr size_t MODERATE_BACKLOG = 2;
+    constexpr size_t LARGE_TEXTURE_BYTES = 64_MiB;
+    constexpr size_t HUGE_TEXTURE_BYTES = 256_MiB;
+
+    const bool aggressive = queue_size > LARGE_BACKLOG;
+    if (aggressive && texture_bytes < LARGE_TEXTURE_BYTES) {
+        return 0xFFFFFFFF;
+    }
+
+    if (queue_size > LARGE_BACKLOG) {
+        u32 multiplier = 4;
+        if (texture_bytes < HUGE_TEXTURE_BYTES) {
+            multiplier = 8;
+        }
+        const u32 dynamic_slices = base_slices * multiplier;
+        return std::min(dynamic_slices, static_cast<u32>(texture_slices));
+    }
+
+    if (queue_size > MODERATE_BACKLOG) {
+        const u32 dynamic_slices = base_slices * 2;
+        return std::min(dynamic_slices, static_cast<u32>(texture_slices));
+    }
+
+    return base_slices;
+}
+
 template <class P>
 void TextureCache<P>::TickAsyncUnswizzle() {
    if (unswizzle_queue.empty()) {
@ -1455,15 +1488,26 @@ void TextureCache<P>::TickAsyncUnswizzle() {
        runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(FullUploadSwizzles(task.info)), 0, image.info.size.depth);
        task.last_submitted_offset += (static_cast<size_t>(image.info.size.depth) * task.bytes_per_slice);
    }
-    else if (complete_slices >= swizzle_slices_per_batch || (is_final_batch && complete_slices > 0)) {
+    else {
+        const u32 adaptive_batch = GetAdaptiveBatchSize(task, unswizzle_queue.size());
+
+        const bool whole_texture = adaptive_batch == 0xFFFFFFFF;
        const u32 z_start = static_cast<u32>(task.last_submitted_offset / task.bytes_per_slice);
        const u32 slices_to_process = (std::min)(complete_slices, swizzle_slices_per_batch);
-        const u32 z_count = (std::min)(slices_to_process, image.info.size.depth - z_start);

-        if (z_count > 0) {
+        if (whole_texture) {
            const auto uploads = FullUploadSwizzles(task.info);
-            runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(uploads), z_start, z_count);
-            task.last_submitted_offset += (static_cast<size_t>(z_count) * task.bytes_per_slice);
+            runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(uploads),
+                                          z_start, slices_to_process);
+            task.last_submitted_offset = task.total_size;
+        } else if (complete_slices >= slices_to_process || (is_final_batch && complete_slices > 0)) {
+            const u32 z_count = std::min(slices_to_process, task.info.size.depth - z_start);
+            if (z_count > 0) {
+                const auto uploads = FullUploadSwizzles(task.info);
+                runtime.AccelerateImageUpload(image, task.staging_buffer, FixSmallVectorADL(uploads),
+                                              z_start, z_count);
+                task.last_submitted_offset += (static_cast<size_t>(z_count) * task.bytes_per_slice);
+            }
        }
    }

--- a/src/video_core/texture_cache/texture_cache_base.h
+++ b/src/video_core/texture_cache/texture_cache_base.h
@ -418,6 +418,7 @@ private:

    void QueueAsyncDecode(Image& image, ImageId image_id);
    void TickAsyncDecode();
+    u32 GetAdaptiveBatchSize(const PendingUnswizzle& task, size_t queue_size) const;
    void EnforceSamplerBudget();
    void TrimInactiveSamplers(size_t budget);
    std::optional<size_t> QuerySamplerBudget() const;
@ -513,7 +514,6 @@ private:
    std::vector<std::unique_ptr<AsyncDecodeContext>> async_decodes;

    std::deque<PendingUnswizzle> unswizzle_queue;
-    u8 current_unswizzle_frame;

    // Join caching
    boost::container::small_vector<ImageId, 4> join_overlap_ids;