From patchwork Thu May 16 16:48:39 2024
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: =?utf-8?q?R=C3=A9mi_Denis-Courmont?= <remi@remlab.net>
X-Patchwork-Id: 48933
Delivered-To: ffmpegpatchwork2@gmail.com
Received: by 2002:a05:6a21:3a48:b0:1af:fc2d:ff5a with SMTP id
 zu8csp2365380pzb;
        Thu, 16 May 2024 09:49:13 -0700 (PDT)
X-Forwarded-Encrypted: i=2;
 AJvYcCW6mT2XOM7NGsoD25iNCMR2A52izJVfhEC0Vy+1ffO1EuC97khQPXwe3GoOYej8zwhQO9byJH7VkDbPybFxRc/5kO77mOxwkWNt7g==
X-Google-Smtp-Source: 
 AGHT+IGPdYdiP4i4zEmt6SY9wV5O1PChqWXUvmE8Vhc9vOFVfMtxnJW2ZtOwmJ/EnYpSyysiVMXF
X-Received: by 2002:ac2:5f92:0:b0:523:a6c2:f10f with SMTP id
 2adb3069b0e04-523a6c2f317mr2662812e87.38.1715878153496;
        Thu, 16 May 2024 09:49:13 -0700 (PDT)
ARC-Seal: i=1; a=rsa-sha256; t=1715878153; cv=none;
        d=google.com; s=arc-20160816;
        b=mgogeKaarR0L9GFNeAF6LlFjqAn92pZrOM1dhsh1RhO/VnNi+UOn4zqwBd0OXRhWzY
         9H9ZOYbIlvclKMX4Wr7PnnJI1qOdyIbV5U0UNuAe3wkNc12lTcG6CGLkwK4xVat/Bldl
         E9ek4kbaoEXelAPIwuooIET6wwPCk256jMq7fFRfPZBq8ZBiHfkduHwOZM7fBCDQuBkW
         H65cQjL9XmoFVThOw0sVdJcDbY32w791mm5ejspncpHPtVe4UDtc/XCQ1gF7eNT4ctGA
         X24cHNOQV1qSDGaRpKSl2kkX5gE10EBFz2dpY6fy1lnBl1XWxdWAQhKK55+JQb8jV+xH
         W/JQ==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816;
        h=sender:errors-to:content-transfer-encoding:reply-to:list-subscribe
         :list-help:list-post:list-archive:list-unsubscribe:list-id
         :precedence:subject:mime-version:references:in-reply-to:message-id
         :date:to:from:delivered-to;
        bh=F/sKomaW1BG4Q4OYFebllXv160n+WHs3mnLuys/i8Fo=;
        fh=YOA8vD9MJZuwZ71F/05pj6KdCjf6jQRmzLS+CATXUQk=;
        b=bhJHORSMyy1zfS7btR10EA07zh0/bp7I3lc8Hqa9UshxcW65aR2UDDPuS5zD9L1WIL
         v5cJxbiwSkqeatR6oMy2aSaqvQvit5dGJan2Og57MPYTAqzkkJjzyWiCLhStRNY9zbFs
         u0kyY5bQ3upDjuYcbY3WNqpyjKIHxX+MF7X4/QhnkNOZRldZeliBq4chCUXoLiURNPv4
         3KA63YoGIdpOGiq29lizYlzJdgVUYwwt6ootdHKXe/VR/+BpB4/H4kDMZchJqqH8qqy4
         /pMqKwKy1HIOhGmpC6LQgsBLn7w1j0BLywkH1P8z/Y/AGXfHzqNz6P/BV8/lHKPEa1PE
         5MQg==;
        dara=google.com
ARC-Authentication-Results: i=1; mx.google.com;
       spf=pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender)
 smtp.mailfrom=ffmpeg-devel-bounces@ffmpeg.org
Return-Path: <ffmpeg-devel-bounces@ffmpeg.org>
Received: from ffbox0-bg.mplayerhq.hu (ffbox0-bg.ffmpeg.org. [79.124.17.100])
        by mx.google.com with ESMTP id
 2adb3069b0e04-521f38d3d4fsi5343339e87.226.2024.05.16.09.49.12;
        Thu, 16 May 2024 09:49:13 -0700 (PDT)
Received-SPF: pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender) client-ip=79.124.17.100;
Authentication-Results: mx.google.com;
       spf=pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender)
 smtp.mailfrom=ffmpeg-devel-bounces@ffmpeg.org
Received: from [127.0.1.1] (localhost [127.0.0.1])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id 4D7DC68D4BD;
	Thu, 16 May 2024 19:48:50 +0300 (EEST)
X-Original-To: ffmpeg-devel@ffmpeg.org
Delivered-To: ffmpeg-devel@ffmpeg.org
Received: from ursule.remlab.net (vps-a2bccee9.vps.ovh.net [51.75.19.47])
 by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id 5E52868D44A
 for <ffmpeg-devel@ffmpeg.org>; Thu, 16 May 2024 19:48:41 +0300 (EEST)
Received: from basile.remlab.net (localhost [IPv6:::1])
 by ursule.remlab.net (Postfix) with ESMTP id 08673C01A9
 for <ffmpeg-devel@ffmpeg.org>; Thu, 16 May 2024 19:48:40 +0300 (EEST)
From: =?utf-8?q?R=C3=A9mi_Denis-Courmont?= <remi@remlab.net>
To: ffmpeg-devel@ffmpeg.org
Date: Thu, 16 May 2024 19:48:39 +0300
Message-ID: <20240516164840.19025-3-remi@remlab.net>
X-Mailer: git-send-email 2.43.0
In-Reply-To: <20240516164840.19025-1-remi@remlab.net>
References: <20240516164840.19025-1-remi@remlab.net>
MIME-Version: 1.0
Subject: [FFmpeg-devel] [PATCHv4 3/4] lavc/flacdsp: optimise RVV vector type
 for lpc32
X-BeenThere: ffmpeg-devel@ffmpeg.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: FFmpeg development discussions and patches <ffmpeg-devel.ffmpeg.org>
List-Unsubscribe: <https://ffmpeg.org/mailman/options/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=unsubscribe>
List-Archive: <https://ffmpeg.org/pipermail/ffmpeg-devel>
List-Post: <mailto:ffmpeg-devel@ffmpeg.org>
List-Help: <mailto:ffmpeg-devel-request@ffmpeg.org?subject=help>
List-Subscribe: <https://ffmpeg.org/mailman/listinfo/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=subscribe>
Reply-To: FFmpeg development discussions and patches <ffmpeg-devel@ffmpeg.org>
Errors-To: ffmpeg-devel-bounces@ffmpeg.org
Sender: "ffmpeg-devel" <ffmpeg-devel-bounces@ffmpeg.org>
X-TUID: UTYrqBic6pLG

This is pretty much the same as for lpc16, though it only improves half
as large prediction orders. With 128-bit vectors, this gives:

   C      V old  V new
1   69.2  181.5   95.5
2  107.7  180.7   95.2
3  145.5  180.0  103.5
4  183.0  179.2  102.7
5  220.7  178.5  128.0
6  257.7  194.0  127.5
7  294.5  193.7  126.7
8  331.0  193.0  126.5

Larger prediction orders see no significant changes at that size.
---
 libavcodec/riscv/flacdsp_init.c | 15 ++++++++-------
 libavcodec/riscv/flacdsp_rvv.S  | 12 +++++++-----
 2 files changed, 15 insertions(+), 12 deletions(-)

diff --git a/libavcodec/riscv/flacdsp_init.c b/libavcodec/riscv/flacdsp_init.c
index 735aec0691..830ae36534 100644
--- a/libavcodec/riscv/flacdsp_init.c
+++ b/libavcodec/riscv/flacdsp_init.c
@@ -71,17 +71,18 @@ av_cold void ff_flacdsp_init_riscv(FLACDSPContext *c, enum AVSampleFormat fmt,
     if ((flags & AV_CPU_FLAG_RVV_I32) && (flags & AV_CPU_FLAG_RVB_ADDR)) {
         int vlenb = ff_get_rv_vlenb();
 
-        if ((flags & AV_CPU_FLAG_RVB_BASIC) && vlenb >= 16)
+        if ((flags & AV_CPU_FLAG_RVB_BASIC) && vlenb >= 16) {
             c->lpc16 = ff_flac_lpc16_rvv;
 
 # if (__riscv_xlen >= 64)
-        if (flags & AV_CPU_FLAG_RVV_I64) {
-            if (vlenb > 16)
-                c->lpc32 = ff_flac_lpc32_rvv_simple;
-            else
-                c->lpc32 = ff_flac_lpc32_rvv;
-        }
+            if (flags & AV_CPU_FLAG_RVV_I64) {
+                if (vlenb > 16)
+                    c->lpc32 = ff_flac_lpc32_rvv_simple;
+                else
+                    c->lpc32 = ff_flac_lpc32_rvv;
+            }
 # endif
+        }
 
         c->wasted32 = ff_flac_wasted32_rvv;
 
diff --git a/libavcodec/riscv/flacdsp_rvv.S b/libavcodec/riscv/flacdsp_rvv.S
index e1a20ce8e1..2941928465 100644
--- a/libavcodec/riscv/flacdsp_rvv.S
+++ b/libavcodec/riscv/flacdsp_rvv.S
@@ -76,22 +76,24 @@ func ff_flac_lpc32_rvv, zve64x
         ret
 endfunc
 
-func ff_flac_lpc32_rvv_simple, zve64x
-        vsetivli zero, 1, e64, m1, ta, ma
+func ff_flac_lpc32_rvv_simple, zve64x, zbb
+        vtype_vli t3, a2, t1, e64, ta, ma
+        vntypei t2, t3
+        vsetvl  zero, a2, t3 // e64
         vmv.s.x v0, zero
-        vsetvli zero, a2, e32, m4, ta, ma
+        vsetvl  zero, zero, t2 // e32
         vle32.v v8, (a1)
         sub     a4, a4, a2
         vle32.v v16, (a0)
         sh2add  a0, a2, a0
 1:
         vwmul.vv v24, v8, v16
-        vsetvli zero, zero, e64, m8, ta, ma
+        vsetvl  zero, zero, t3 // e64
         vredsum.vs v24, v24, v0
         lw      t0, (a0)
         addi    a4, a4, -1
         vmv.x.s t1, v24
-        vsetvli zero, zero, e32, m4, ta, ma
+        vsetvl  zero, zero, t2 // e32
         sra     t1, t1, a3
         add     t0, t0, t1
         vslide1down.vx v16, v16, t0