From patchwork Wed Feb 21 11:10:03 2024
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: "J. Dekker" <jdek@itanimul.li>
X-Patchwork-Id: 46414
Delivered-To: ffmpegpatchwork2@gmail.com
Received: by 2002:a05:6a20:1b29:b0:19e:cdac:8cce with SMTP id
 ch41csp227967pzb;
        Wed, 21 Feb 2024 03:10:40 -0800 (PST)
X-Forwarded-Encrypted: i=2;
 AJvYcCVOJzHUyVFAzmMtMD4akMbDNAMzKeukDm+50Bdz6vaThqAw9B6gaAt/ropinJ1d+XPZqbYbQr3IAiSWB9mP0TSZ/G81j7cQDUixrw==
X-Google-Smtp-Source: 
 AGHT+IHTjaUXnUsQY4vRMMOZr+8d1eT+gGEyNG7xJlVqpFAp/S9W5pSWznmzRF6bTxdiLpld7Loz
X-Received: by 2002:a17:906:411a:b0:a3e:5cba:e005 with SMTP id
 j26-20020a170906411a00b00a3e5cbae005mr6701730ejk.64.1708513840272;
        Wed, 21 Feb 2024 03:10:40 -0800 (PST)
ARC-Seal: i=1; a=rsa-sha256; t=1708513840; cv=none;
        d=google.com; s=arc-20160816;
        b=c0znbQyxfQN7581mDOogj9qhYm1hbZLvN3I14c/1op52hg4bbRmMsIH6bNdX4hXBMA
         o4L7ZR9NrcyvXoLRgKBuLB7CDWfjH0RNnO2xwaf3R3RCK8VYv8+TBFEQca/gWmM8trw0
         MlHQk4g6LJ4oJgfCmSY3fEZQn7sl1nprrYiEm4TLlWPrJsAj5V4CyavW4YwvJiq1T1JV
         a2YwDv4YPucnH4KxsMPwSA4wgKwXVZMHVK7h313HOwyr7SbhC3dHQPk3qSDXA51gOgkf
         leL21GvdMq2pxKiTxIJlProudMDgNiWVEgv3Jv7GzIAh6nn7baxHWJcaSeFl2JsM4h7e
         r8QQ==
ARC-Message-Signature: i=1; a=rsa-sha256; c=relaxed/relaxed; d=google.com;
 s=arc-20160816;
        h=sender:errors-to:content-transfer-encoding:reply-to:list-subscribe
         :list-help:list-post:list-archive:list-unsubscribe:list-id
         :precedence:subject:mime-version:references:in-reply-to:message-id
         :date:to:from:feedback-id:dkim-signature:dkim-signature:delivered-to;
        bh=y5QpwNOGzzQQQgL3bEH1RIfp9ncmsxmPpGbWS8uxQ+I=;
        fh=YOA8vD9MJZuwZ71F/05pj6KdCjf6jQRmzLS+CATXUQk=;
        b=fqGc5x1MPE0pT66/KxgxmchihWAUpX2qBTxz2+W0XHzz6KO7EHhXVNCqCorZbayrwO
         HzwuAm/xLeOPlDn0S913Fno7f21RcIH58SUlYNvXXa3t5gIpGMkt+WEaQDH234i3GSR9
         Q5lP0jhhJHHv6HCrEPjt2aCtR9y8vvapU3ohW1A13jC4MeLqkkglC07gCMNyxzDz7gMS
         Gbw5kryKVt6b1+8ZIzTh7W2Ot1TAROawiCLQarbJNbns/TiV46yvBY5LXCn2X3zf6iU5
         TTEiZBBWI9GroVcm2GNjx9T8V68SMzqQDbgQ0S8sZQYZkCCYaQ8N0sPK+xO9xKa5voWu
         ecIw==;
        dara=google.com
ARC-Authentication-Results: i=1; mx.google.com;
       dkim=neutral (body hash did not verify) header.i=@itanimul.li
 header.s=fm2 header.b=YJ6mggzq;
       dkim=neutral (body hash did not verify) header.i=@messagingengine.com
 header.s=fm1 header.b=FNce7C1J;
       spf=pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender)
 smtp.mailfrom=ffmpeg-devel-bounces@ffmpeg.org
Return-Path: <ffmpeg-devel-bounces@ffmpeg.org>
Received: from ffbox0-bg.mplayerhq.hu (ffbox0-bg.ffmpeg.org. [79.124.17.100])
        by mx.google.com with ESMTP id
 y10-20020a1709063a8a00b00a3ed7fbe54bsi2028460ejd.841.2024.02.21.03.10.39;
        Wed, 21 Feb 2024 03:10:40 -0800 (PST)
Received-SPF: pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender) client-ip=79.124.17.100;
Authentication-Results: mx.google.com;
       dkim=neutral (body hash did not verify) header.i=@itanimul.li
 header.s=fm2 header.b=YJ6mggzq;
       dkim=neutral (body hash did not verify) header.i=@messagingengine.com
 header.s=fm1 header.b=FNce7C1J;
       spf=pass (google.com: domain of ffmpeg-devel-bounces@ffmpeg.org
 designates 79.124.17.100 as permitted sender)
 smtp.mailfrom=ffmpeg-devel-bounces@ffmpeg.org
Received: from [127.0.1.1] (localhost [127.0.0.1])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id D1BC068D1D6;
	Wed, 21 Feb 2024 13:10:18 +0200 (EET)
X-Original-To: ffmpeg-devel@ffmpeg.org
Delivered-To: ffmpeg-devel@ffmpeg.org
Received: from fhigh3-smtp.messagingengine.com
 (fhigh3-smtp.messagingengine.com [103.168.172.154])
 by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTPS id 2138568D1C6
 for <ffmpeg-devel@ffmpeg.org>; Wed, 21 Feb 2024 13:10:12 +0200 (EET)
Received: from compute2.internal (compute2.nyi.internal [10.202.2.46])
 by mailfhigh.nyi.internal (Postfix) with ESMTP id 32A0311400D0
 for <ffmpeg-devel@ffmpeg.org>; Wed, 21 Feb 2024 06:10:11 -0500 (EST)
Received: from mailfrontend1 ([10.202.2.162])
 by compute2.internal (MEProxy); Wed, 21 Feb 2024 06:10:11 -0500
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=itanimul.li; h=
 cc:content-transfer-encoding:content-type:date:date:from:from
 :in-reply-to:in-reply-to:message-id:mime-version:references
 :reply-to:subject:subject:to:to; s=fm2; t=1708513811; x=
 1708600211; bh=Sxj2kSbGKluuQNekHN0iYWns02hmd3VqMXVIaxuJQgM=; b=Y
 J6mggzqJgXSBOYyQVlv6Bl66mghd2iuZeu0B05o54ulFXpl889m0EHCWNoZ02JGB
 2cSC2qcGeQeGnvIEQvCTnWh06CPFjiXVRUl7JeyLWxMOGlqoeGaxS3P+b/0LbOHb
 S5Tke1JrsMOwNqFyKw02hZiMd8Q+4RsTQD05QxTLqgoLh60SIrA+2ifzSv5z8abL
 heYYu/VAesACfuKmhi+UCWURz1BPxOBz47911rHuFMNMlF5RW690ttq3KCsagM1t
 qCp3uXLeXVhDQPRZ+M9eFZzbb+5qZhyJSE5ksGyJLvWwQ4tcSmHPSjM94RRDzdxO
 2STAzT6/zeVYbSlmqQRKw==
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=
 messagingengine.com; h=cc:content-transfer-encoding:content-type
 :date:date:feedback-id:feedback-id:from:from:in-reply-to
 :in-reply-to:message-id:mime-version:references:reply-to:subject
 :subject:to:to:x-me-proxy:x-me-proxy:x-me-sender:x-me-sender
 :x-sasl-enc; s=fm1; t=1708513811; x=1708600211; bh=Sxj2kSbGKluuQ
 NekHN0iYWns02hmd3VqMXVIaxuJQgM=; b=FNce7C1JxcNooW4DrcaAIlNjCQe0G
 Ijpx/is8RZCvtWUCDLs5H9wug7+XyaTS6yIa3UJBv1dOsBx4De80xHb4VLok8QCX
 KgD+Jk8FtnNdSbx95lJvV8xhISrG6d1hwjh4ZY8T3lSPBDnk0I8UYFaF+zIDiA41
 zhKqavmD5DisxT3GOE4M4tN/9/Mari5BgeNTFNxKFOU7cqLYPeg9/ytxAcZRwB2T
 mw2LrHp6opRkAk0+0yJEGKg6XY6e/UD3xfFmsdFX2EyPQhJstPqWlm9YcxRwYzzO
 gQpuIEaITyi7UdkoY76KJA9Y5VpRxnHMxvuQkfIlLt0ep+vEhXxxi1C1g==
X-ME-Sender: <xms:E9rVZUCK_UvdG7FBclhgxlOjwTzCXOYOAlzI8Nc2vOT9Zmlajgss9A>
 <xme:E9rVZWh5H2D490k_e26yx1ZgpI5T9d57ZTsdtmN-JgmRqYv7k3trQjey5bI7jfm6L
 OS1xblANXNrZXXiyg>
X-ME-Received: 
 <xmr:E9rVZXl5ukebq34vOnn5jQiOlHc4pRSW4Ash2Z-5oJ-BueldcF5GavHU7QmVux7ql-HoqetwKJYZUnY>
X-ME-Proxy-Cause: 
 gggruggvucftvghtrhhoucdtuddrgedvledrfedvgddvhecutefuodetggdotefrodftvf
 curfhrohhfihhlvgemucfhrghsthforghilhdpqfgfvfdpuffrtefokffrpgfnqfghnecu
 uegrihhlohhuthemuceftddtnecunecujfgurhephffvufffkffojghfggfgsedtkeertd
 ertddtnecuhfhrohhmpedflfdrucffvghkkhgvrhdfuceojhguvghksehithgrnhhimhhu
 lhdrlhhiqeenucggtffrrghtthgvrhhnpeeihfeluefhjefhlefftdeiuefhvdehgeejue
 fgledvgffgffeviefggfevveefieenucffohhmrghinhephhgvvhgtughsphgpuggvsghl
 ohgtkhgpnhgvohhnrdhssgenucevlhhushhtvghrufhiiigvpedtnecurfgrrhgrmhepmh
 grihhlfhhrohhmpehjuggvkhesihhtrghnihhmuhhlrdhlih
X-ME-Proxy: <xmx:E9rVZaza90FSmbIt-3cVHHQXzv86gtH9hFQ3ieeiGHDV-BoMp7kDbg>
 <xmx:E9rVZZRn0r-8iSn41xtPqyqIBZRhwqylhRng_YY4Tv1dC4ZrWI5G-g>
 <xmx:E9rVZVau-wrocbZh8xw6CfUOv6PWHfnR01IAUDFnJoAh9CAp0DZBbw>
 <xmx:E9rVZYIP9_thaH_2gI-x41WJ5_fqSQmIuaHDdJqm7oqeHaSseRs_Dw>
Feedback-ID: i84994747:Fastmail
Received: by mail.messagingengine.com (Postfix) with ESMTPA for
 <ffmpeg-devel@ffmpeg.org>; Wed, 21 Feb 2024 06:10:10 -0500 (EST)
From: "J. Dekker" <jdek@itanimul.li>
To: ffmpeg-devel@ffmpeg.org
Date: Wed, 21 Feb 2024 12:10:03 +0100
Message-ID: <20240221111003.185240-3-jdek@itanimul.li>
X-Mailer: git-send-email 2.43.2
In-Reply-To: <20240221111003.185240-1-jdek@itanimul.li>
References: <20240221111003.185240-1-jdek@itanimul.li>
MIME-Version: 1.0
Subject: [FFmpeg-devel] [PATCH 3/3] avcodec/aarch64: add hevc deblock NEON
X-BeenThere: ffmpeg-devel@ffmpeg.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: FFmpeg development discussions and patches <ffmpeg-devel.ffmpeg.org>
List-Unsubscribe: <https://ffmpeg.org/mailman/options/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=unsubscribe>
List-Archive: <https://ffmpeg.org/pipermail/ffmpeg-devel>
List-Post: <mailto:ffmpeg-devel@ffmpeg.org>
List-Help: <mailto:ffmpeg-devel-request@ffmpeg.org?subject=help>
List-Subscribe: <https://ffmpeg.org/mailman/listinfo/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=subscribe>
Reply-To: FFmpeg development discussions and patches <ffmpeg-devel@ffmpeg.org>
Errors-To: ffmpeg-devel-bounces@ffmpeg.org
Sender: "ffmpeg-devel" <ffmpeg-devel-bounces@ffmpeg.org>
X-TUID: O/tp8NGVhy+Y

Benched using single-threaded full decode on an Ampere Altra.

Bpp Before  After  Speedup
8   73,3s   65,2s  1.124x
10  114,2s  104,0s 1.098x
12  125,8s  115,7s 1.087x

Signed-off-by: J. Dekker <jdek@itanimul.li>
---
 libavcodec/aarch64/hevcdsp_deblock_neon.S | 421 ++++++++++++++++++++++
 libavcodec/aarch64/hevcdsp_init_aarch64.c |  18 +
 2 files changed, 439 insertions(+)

diff --git a/libavcodec/aarch64/hevcdsp_deblock_neon.S b/libavcodec/aarch64/hevcdsp_deblock_neon.S
index 8227f65649..1995f21807 100644
--- a/libavcodec/aarch64/hevcdsp_deblock_neon.S
+++ b/libavcodec/aarch64/hevcdsp_deblock_neon.S
@@ -181,3 +181,424 @@ hevc_h_loop_filter_chroma 12
 hevc_v_loop_filter_chroma 8
 hevc_v_loop_filter_chroma 10
 hevc_v_loop_filter_chroma 12
+
+.macro hevc_loop_filter_luma_body bitdepth
+function hevc_loop_filter_luma_body_\bitdepth\()_neon, export=0
+.if \bitdepth > 8
+        lsl             w2, w2, #(\bitdepth - 8) // beta <<= BIT_DEPTH - 8
+.else
+        uxtl            v0.8h, v0.8b
+        uxtl            v1.8h, v1.8b
+        uxtl            v2.8h, v2.8b
+        uxtl            v3.8h, v3.8b
+        uxtl            v4.8h, v4.8b
+        uxtl            v5.8h, v5.8b
+        uxtl            v6.8h, v6.8b
+        uxtl            v7.8h, v7.8b
+.endif
+        ldr             w7, [x3] // tc[0]
+        ldr             w8, [x3, #4] // tc[1]
+        dup             v18.4h, w7
+        dup             v19.4h, w8
+        trn1            v18.2d, v18.2d, v19.2d
+.if \bitdepth > 8
+        shl             v18.8h, v18.8h, #(\bitdepth - 8)
+.endif
+        dup             v27.8h, w2 // beta
+        // tc25
+        shl             v19.8h, v18.8h, #2 // * 4
+        add             v19.8h, v19.8h, v18.8h // (tc * 5)
+        srshr           v19.8h, v19.8h, #1 // (tc * 5 + 1) >> 1
+        sshr            v17.8h, v27.8h, #2 // beta2
+
+        ////// beta_2 check
+        // dp0  = abs(P2  - 2 * P1  + P0)
+        add             v22.8h, v3.8h, v1.8h
+        shl             v23.8h, v2.8h, #1
+        sabd            v30.8h, v22.8h, v23.8h
+        // dq0  = abs(Q2  - 2 * Q1  + Q0)
+        add             v21.8h, v6.8h, v4.8h
+        shl             v26.8h, v5.8h, #1
+        sabd            v31.8h, v21.8h, v26.8h
+        // d0   = dp0 + dq0
+        add             v20.8h, v30.8h, v31.8h
+        shl             v25.8h, v20.8h, #1
+        // (d0 << 1) < beta_2
+        cmgt            v23.8h, v17.8h, v25.8h
+
+        ////// beta check
+        // d0 + d3 < beta
+        mov             x9, #0xFFFF00000000FFFF
+        dup             v24.2d, x9
+        and             v25.16b, v24.16b, v20.16b
+        addp            v25.8h, v25.8h, v25.8h // 1+0 0+1 1+0 0+1
+        addp            v25.4h, v25.4h, v25.4h // 1+0+0+1 1+0+0+1
+        cmgt            v25.4h, v27.4h, v25.4h // lower/upper mask in h[0/1]
+        mov             w9, v25.s[0]
+        cmp             w9, #0
+        sxtl            v26.4s, v25.4h
+        sxtl            v16.2d, v26.2s // full skip mask
+        b.eq            3f // skip both blocks
+
+        // TODO: we can check the full skip mask with the weak/strong mask to
+        // potentially skip weak or strong calculation entirely if we only have one
+
+        ////// beta_3 check
+        // abs(P3  -  P0) + abs(Q3  -  Q0) < beta_3
+        sshr            v17.8h, v17.8h, #1 // beta_3
+        sabd            v20.8h, v0.8h, v3.8h
+        saba            v20.8h, v7.8h, v4.8h
+        cmgt            v21.8h, v17.8h, v20.8h
+
+        and             v23.16b, v23.16b, v21.16b
+
+        ////// tc25 check
+        // abs(P0  -  Q0) < tc25
+        sabd            v20.8h, v3.8h, v4.8h
+        cmgt            v21.8h, v19.8h, v20.8h
+
+        and             v23.16b, v23.16b, v21.16b
+
+        ////// Generate low/high line max from lines 0/3/4/7
+        // mask out lines 2/3/5/6
+        not             v20.16b, v24.16b // 0x0000FFFFFFFF0000
+        orr             v23.16b, v23.16b, v20.16b
+
+        // generate weak/strong mask
+        uminp           v23.8h, v23.8h, v23.8h // extend to singles
+        sxtl            v23.4s, v23.4h
+        uminp           v26.4s, v23.4s, v23.4s // check lines
+        // extract to gpr
+        ext             v25.16b, v26.16b, v26.16b, #2
+        zip1            v17.4s, v26.4s, v26.4s
+        mov             w12, v25.s[0]
+        mov             w11, #0x0000FFFF
+        mov             w13, #0xFFFF0000
+        // FFFF FFFF -> strong strong
+        // FFFF 0000 -> strong weak
+        // 0000 FFFF -> weak   strong
+        // 0000 0000 -> weak   weak
+        cmp             w12, w13
+        b.hi            0f // only strong/strong, skip weak nd_p/nd_q calc
+
+        ////// weak nd_p/nd_q
+        // d0+d3
+        and             v30.16b, v30.16b, v24.16b // d0 __ __ d3 d4 __ __ d7
+        and             v31.16b, v31.16b, v24.16b
+        addp            v30.8h, v30.8h, v30.8h // [d0+__ __+d3 d4+__ __+d7] [ ... ]
+        addp            v31.8h, v31.8h, v31.8h // [d0+d3 d4+d7]
+        addp            v30.4h, v30.4h, v30.4h
+        addp            v31.4h, v31.4h, v31.4h
+
+        // ((beta + (beta >> 1)) >> 3)
+        sshr            v21.8h, v27.8h, #1
+        add             v21.8h, v21.8h, v27.8h
+        sshr            v21.8h, v21.8h, #3
+
+        // nd_p = dp0 + dp3 < ((beta + (beta >> 1)) >> 3)
+        cmgt            v30.8h, v21.8h, v30.8h
+        // nd_q = dq0 + dq3 < ((beta + (beta >> 1)) >> 3)
+        cmgt            v31.8h, v21.8h, v31.8h
+
+        sxtl            v30.4s, v30.4h
+        sxtl            v31.4s, v31.4h
+        sxtl            v28.2d, v30.2s
+        sxtl            v29.2d, v31.2s
+
+        cmp             w12, w11
+        b.lo            1f // can only be weak weak, skip strong
+
+0:      // STRONG FILTER
+
+        // P0 = p0 + av_clip(((p2 + 2 * p1 + 2 * p0 + 2 * q0 + q1 + 4) >> 3) - p0, -tc3, tc3);
+        add             v21.8h, v2.8h, v3.8h   // (p1 + p0
+        add             v21.8h, v4.8h, v21.8h  //     + q0)
+        shl             v21.8h, v21.8h, #1     //           * 2
+        add             v22.8h, v1.8h, v5.8h   //   (p2 + q1)
+        add             v21.8h, v22.8h, v21.8h // +
+        srshr            v21.8h, v21.8h, #3     //               >> 3
+        sub             v21.8h, v21.8h, v3.8h  //                    - p0
+
+        // P1 = p1 + av_clip(((p2 + p1 + p0 + q0 + 2) >> 2) - p1, -tc2, tc2);
+
+        add             v22.8h, v1.8h, v2.8h
+        add             v23.8h, v3.8h, v4.8h
+        add             v22.8h, v22.8h, v23.8h
+        srshr            v22.8h, v22.8h, #2
+        sub             v22.8h, v22.8h, v2.8h
+
+        // P2 = p2 + av_clip(((2 * p3 + 3 * p2 + p1 + p0 + q0 + 4) >> 3) - p2, -tc, tc);
+
+        add             v23.8h, v0.8h, v1.8h // p3 + p2
+        add             v24.8h, v3.8h, v4.8h // p0 + q0
+        shl             v23.8h, v23.8h, #1 // * 2
+        add             v23.8h, v23.8h, v24.8h
+        add             v24.8h, v1.8h, v2.8h // p2 + p1
+        add             v23.8h, v23.8h, v24.8h
+        srshr            v23.8h, v23.8h, #3
+        sub             v23.8h, v23.8h, v1.8h
+
+        // Q0 = q0 + av_clip(((p1 + 2 * p0 + 2 * q0 + 2 * q1 + q2 + 4) >> 3) - q0, -tc3, tc3);
+        add             v24.8h, v3.8h, v4.8h   // (p0 + q0
+        add             v24.8h, v5.8h, v24.8h  //     + q1)
+        shl             v24.8h, v24.8h, #1     //           * 2
+        add             v25.8h, v2.8h, v6.8h   //   (p1 + q2)
+        add             v24.8h, v25.8h, v24.8h // +
+        srshr           v24.8h, v24.8h, #3     //               >> 3
+        sub             v24.8h, v24.8h, v4.8h  //                    - q0
+
+        // Q1 = q1 + av_clip(((p0 + q0 + q1 + q2 + 2) >> 2) - q1, -tc2, tc2);
+
+        add             v25.8h, v6.8h, v5.8h
+        add             v26.8h, v3.8h, v4.8h
+        add             v25.8h, v25.8h, v26.8h
+        srshr           v25.8h, v25.8h, #2
+        sub             v25.8h, v25.8h, v5.8h
+
+        // Q2 = q2 + av_clip(((2 * q3 + 3 * q2 + q1 + q0 + p0 + 4) >> 3) - q2, -tc, tc);
+
+        add             v26.8h, v7.8h, v6.8h
+        add             v27.8h, v6.8h, v5.8h
+        shl             v26.8h, v26.8h, #1
+        add             v26.8h, v26.8h, v27.8h
+        add             v27.8h, v3.8h, v4.8h
+        add             v26.8h, v26.8h, v27.8h
+        srshr           v26.8h, v26.8h, #3
+        sub             v26.8h, v26.8h, v6.8h
+
+        // this clip should work properly
+        shl             v30.8h, v18.8h, #1 // tc2
+        neg             v31.8h, v30.8h // -tc2
+        clip            v31.8h, v30.8h, v21.8h, v22.8h, v23.8h, v24.8h, v25.8h, v26.8h
+
+        and             v21.16b, v21.16b, v16.16b
+        and             v22.16b, v22.16b, v16.16b
+        and             v23.16b, v23.16b, v16.16b
+        and             v24.16b, v24.16b, v16.16b
+        and             v25.16b, v25.16b, v16.16b
+        and             v26.16b, v26.16b, v16.16b
+
+        add             v23.8h, v23.8h, v1.8h // careful
+        add             v22.8h, v22.8h, v2.8h
+        add             v21.8h, v21.8h, v3.8h
+        add             v24.8h, v24.8h, v4.8h
+        add             v25.8h, v25.8h, v5.8h
+        add             v26.8h, v26.8h, v6.8h
+
+        cmp             w12, w13
+        b.hi            2f // only strong/strong, skip weak
+
+1:      // WEAK FILTER
+
+        // delta0 = (9 * (q0 - p0) - 3 * (q1 - p1) + 8) >> 4
+.if \bitdepth < 12
+        sub             v27.8h, v4.8h, v3.8h // q0 - p0
+        shl             v30.8h, v27.8h, #3 // * 8
+        add             v27.8h, v27.8h, v30.8h // 9 * (q0 - p0)
+
+        sub             v30.8h, v5.8h, v2.8h // q1 - p1
+        shl             v31.8h, v30.8h, #1 // * 2
+
+        sub             v27.8h, v27.8h, v31.8h
+        sub             v27.8h, v27.8h, v30.8h // - 3 * (q1 - p1)
+        srshr           v27.8h, v27.8h, #4
+.else
+        ssubl           v19.4s, v4.4h, v3.4h // q0 - p0
+        ssubl2          v20.4s, v4.8h, v3.8h
+
+        shl             v30.4s, v19.4s, #3 // * 8
+        shl             v31.4s, v20.4s, #3
+
+        add             v30.4s, v30.4s, v19.4s // 9 * (q0 - p0)
+        add             v31.4s, v31.4s, v20.4s
+
+        ssubl           v19.4s, v5.4h, v2.4h // q1 - p1
+        ssubl2          v20.4s, v5.8h, v2.8h
+
+        sub             v30.4s, v30.4s, v19.4s
+        sub             v31.4s, v31.4s, v20.4s
+
+        shl             v19.4s, v19.4s, #1
+        shl             v20.4s, v20.4s, #1
+
+        sub             v30.4s, v30.4s, v19.4s
+        sub             v31.4s, v31.4s, v20.4s
+
+        sqrshrn         v27.4h, v30.4s, #4
+        sqrshrn2        v27.8h, v31.4s, #4
+.endif
+
+        // delta0 10tc check mask
+        shl             v30.8h, v18.8h, #1 // * 2
+        shl             v31.8h, v18.8h, #3 // * 8
+        add             v30.8h, v30.8h, v31.8h // 10 * tc
+        abs             v31.8h, v27.8h
+        cmgt            v20.8h, v30.8h, v31.8h // abs(delta0) < 10 * tc
+
+        and             v20.16b, v20.16b, v16.16b // combine with full mask
+
+        neg             v31.8h, v18.8h // -tc
+        clip            v31.8h, v18.8h, v27.8h // delta0 = av_clip(delta0, -tc, tc)
+
+        // deltap1 = av_clip((((p2 + p0 + 1) >> 1) - p1 + delta0) >> 1, -tc_2, tc_2)
+        add             v30.8h, v1.8h, v3.8h
+        srshr           v30.8h, v30.8h, #1
+        sub             v30.8h, v30.8h, v2.8h
+        add             v30.8h, v30.8h, v27.8h
+        sshr            v30.8h, v30.8h, #1
+
+        // p3 p2 p1 p0 q0 q1 q2 q3
+        // v0 v1 v2 v3 v4 v5 v6 v7
+
+        // deltaq1 = av_clip((((q2 + q0 + 1) >> 1) - q1 - delta0) >> 1, -tc_2, tc_2);
+        add             v31.8h, v6.8h, v4.8h
+        srshr           v31.8h, v31.8h, #1
+        sub             v31.8h, v31.8h, v5.8h
+        sub             v31.8h, v31.8h, v27.8h
+        sshr            v31.8h, v31.8h, #1
+
+        // apply nd_p nd_q mask to deltap1/deltaq1
+        and             v30.16b, v30.16b, v28.16b
+        and             v31.16b, v31.16b, v29.16b
+
+        // apply full skip mask to deltap1/deltaq1/delta0
+        and             v30.16b, v30.16b, v20.16b
+        and             v27.16b, v27.16b, v20.16b
+        and             v31.16b, v31.16b, v20.16b
+
+        // clip P1/Q1 to -tc_2, tc_2
+        sshr            v18.8h, v18.8h, #1 // tc2
+        neg             v28.8h, v18.8h
+        clip            v28.8h, v18.8h, v30.8h, v31.8h
+
+        // P0 = av_clip_pixel(p0 + delta0)
+        // Q0 = av_clip_pixel(q0 - delta0)
+        add             v29.8h, v3.8h, v27.8h // P0
+        sub             v27.8h, v4.8h, v27.8h // Q0
+
+        // P1 = av_clip_pixel(p1 + deltap1)
+        // Q1 = av_clip_pixel(q1 + deltaq1)
+        add             v30.8h, v2.8h, v30.8h // P1
+        add             v31.8h, v5.8h, v31.8h // Q1
+
+2:      // MIX WEAK/STRONG
+
+        mov             v19.16b, v1.16b
+        mov             v20.16b, v6.16b
+        // copy selection mask
+        mov             v1.16b, v17.16b
+        mov             v2.16b, v17.16b
+        mov             v3.16b, v17.16b
+        mov             v4.16b, v17.16b
+        mov             v5.16b, v17.16b
+        mov             v6.16b, v17.16b
+        // select
+        bsl             v1.16b, v23.16b, v19.16b // P2 strong/orig
+        bsl             v2.16b, v22.16b, v30.16b // P1 strong/weak
+        bsl             v3.16b, v21.16b, v29.16b // P0 strong/weak
+        bsl             v4.16b, v24.16b, v27.16b // Q0 strong/weak
+        bsl             v5.16b, v25.16b, v31.16b // Q1 strong/weak
+        bsl             v6.16b, v26.16b, v20.16b // Q2 strong/orig
+        // NOTE: Q3/P3 are unchanged
+
+.if \bitdepth > 8
+        movi            v19.8h, #0
+        dup             v20.8h, w14
+        clip            v19.8h, v20.8h, v1.8h, v2.8h, v3.8h, v4.8h, v5.8h, v6.8h
+.else
+        sqxtun          v0.8b, v0.8h
+        sqxtun          v1.8b, v1.8h
+        sqxtun          v2.8b, v2.8h
+        sqxtun          v3.8b, v3.8h
+        sqxtun          v4.8b, v4.8h
+        sqxtun          v5.8b, v5.8h
+        sqxtun          v6.8b, v6.8h
+        sqxtun          v7.8b, v7.8h
+.endif
+        ret
+3:      ret x6
+endfunc
+.endm
+
+hevc_loop_filter_luma_body 8
+hevc_loop_filter_luma_body 10
+hevc_loop_filter_luma_body 12
+
+// hevc_v_loop_filter_luma(uint8_t *pix, ptrdiff_t stride, int beta, const int32_t *tc, const uint8_t *no_p, const uint8_t *no_q)
+
+.macro hevc_loop_filter_luma dir bitdepth
+function ff_hevc_\dir\()_loop_filter_luma_\bitdepth\()_neon, export=1
+        mov             x6, x30
+.if \dir == v
+.if \bitdepth > 8
+        sub             x0, x0, #8
+.else
+        sub             x0, x0, #4
+.endif
+.else
+        sub             x0, x0, x1, lsl #2 // -4 * xstride, idk
+.endif
+        mov             x10, x0
+.if \bitdepth > 8
+        ld1             {v0.8h}, [x0], x1
+        ld1             {v1.8h}, [x0], x1
+        ld1             {v2.8h}, [x0], x1
+        ld1             {v3.8h}, [x0], x1
+        ld1             {v4.8h}, [x0], x1
+        ld1             {v5.8h}, [x0], x1
+        ld1             {v6.8h}, [x0], x1
+        ld1             {v7.8h}, [x0]
+        mov             w14, #((1 << \bitdepth) - 1)
+.if \dir == v
+        transpose_8x8H  v0, v1, v2, v3, v4, v5, v6, v7, v16, v17
+.endif
+.else
+        ld1             {v0.8b}, [x0], x1
+        ld1             {v1.8b}, [x0], x1
+        ld1             {v2.8b}, [x0], x1
+        ld1             {v3.8b}, [x0], x1
+        ld1             {v4.8b}, [x0], x1
+        ld1             {v5.8b}, [x0], x1
+        ld1             {v6.8b}, [x0], x1
+        ld1             {v7.8b}, [x0]
+.if \dir == v
+        transpose_8x8B  v0, v1, v2, v3, v4, v5, v6, v7, v16, v17
+.endif
+.endif
+        bl hevc_loop_filter_luma_body_\bitdepth\()_neon
+.if \bitdepth > 8
+.if \dir == v
+        transpose_8x8H  v0, v1, v2, v3, v4, v5, v6, v7, v16, v17
+.endif
+        st1             {v0.8h}, [x10], x1
+        st1             {v1.8h}, [x10], x1
+        st1             {v2.8h}, [x10], x1
+        st1             {v3.8h}, [x10], x1
+        st1             {v4.8h}, [x10], x1
+        st1             {v5.8h}, [x10], x1
+        st1             {v6.8h}, [x10], x1
+        st1             {v7.8h}, [x10]
+.else
+.if \dir == v
+        transpose_8x8B  v0, v1, v2, v3, v4, v5, v6, v7, v16, v17
+.endif
+        st1             {v0.8b}, [x10], x1
+        st1             {v1.8b}, [x10], x1
+        st1             {v2.8b}, [x10], x1
+        st1             {v3.8b}, [x10], x1
+        st1             {v4.8b}, [x10], x1
+        st1             {v5.8b}, [x10], x1
+        st1             {v6.8b}, [x10], x1
+        st1             {v7.8b}, [x10]
+.endif
+        ret x6
+endfunc
+.endm
+
+hevc_loop_filter_luma h 8
+hevc_loop_filter_luma h 10
+hevc_loop_filter_luma h 12
+
+hevc_loop_filter_luma v 8
+hevc_loop_filter_luma v 10
+hevc_loop_filter_luma v 12
diff --git a/libavcodec/aarch64/hevcdsp_init_aarch64.c b/libavcodec/aarch64/hevcdsp_init_aarch64.c
index 687b6cc5c3..04692aa98e 100644
--- a/libavcodec/aarch64/hevcdsp_init_aarch64.c
+++ b/libavcodec/aarch64/hevcdsp_init_aarch64.c
@@ -38,6 +38,18 @@ void ff_hevc_h_loop_filter_chroma_10_neon(uint8_t *_pix, ptrdiff_t _stride,
                                           const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
 void ff_hevc_h_loop_filter_chroma_12_neon(uint8_t *_pix, ptrdiff_t _stride,
                                           const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_v_loop_filter_luma_8_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_v_loop_filter_luma_10_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_v_loop_filter_luma_12_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_h_loop_filter_luma_8_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_h_loop_filter_luma_10_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
+void ff_hevc_h_loop_filter_luma_12_neon(uint8_t *_pix, ptrdiff_t _stride, int beta,
+                                          const int *_tc, const uint8_t *_no_p, const uint8_t *_no_q);
 void ff_hevc_add_residual_4x4_8_neon(uint8_t *_dst, const int16_t *coeffs,
                                      ptrdiff_t stride);
 void ff_hevc_add_residual_4x4_10_neon(uint8_t *_dst, const int16_t *coeffs,
@@ -291,6 +303,8 @@ av_cold void ff_hevc_dsp_init_aarch64(HEVCDSPContext *c, const int bit_depth)
     if (!have_neon(cpu_flags)) return;
 
     if (bit_depth == 8) {
+        c->hevc_h_loop_filter_luma     = ff_hevc_h_loop_filter_luma_8_neon;
+        c->hevc_v_loop_filter_luma     = ff_hevc_v_loop_filter_luma_8_neon;
         c->hevc_h_loop_filter_chroma   = ff_hevc_h_loop_filter_chroma_8_neon;
         c->hevc_v_loop_filter_chroma   = ff_hevc_v_loop_filter_chroma_8_neon;
         c->add_residual[0]             = ff_hevc_add_residual_4x4_8_neon;
@@ -379,6 +393,8 @@ av_cold void ff_hevc_dsp_init_aarch64(HEVCDSPContext *c, const int bit_depth)
 
     }
     if (bit_depth == 10) {
+        c->hevc_h_loop_filter_luma     = ff_hevc_h_loop_filter_luma_10_neon;
+        c->hevc_v_loop_filter_luma     = ff_hevc_v_loop_filter_luma_10_neon;
         c->hevc_h_loop_filter_chroma   = ff_hevc_h_loop_filter_chroma_10_neon;
         c->hevc_v_loop_filter_chroma   = ff_hevc_v_loop_filter_chroma_10_neon;
         c->add_residual[0]             = ff_hevc_add_residual_4x4_10_neon;
@@ -395,6 +411,8 @@ av_cold void ff_hevc_dsp_init_aarch64(HEVCDSPContext *c, const int bit_depth)
         c->idct_dc[3]                  = ff_hevc_idct_32x32_dc_10_neon;
     }
     if (bit_depth == 12) {
+        c->hevc_h_loop_filter_luma     = ff_hevc_h_loop_filter_luma_12_neon;
+        c->hevc_v_loop_filter_luma     = ff_hevc_v_loop_filter_luma_12_neon;
         c->hevc_h_loop_filter_chroma   = ff_hevc_h_loop_filter_chroma_12_neon;
         c->hevc_v_loop_filter_chroma   = ff_hevc_v_loop_filter_chroma_12_neon;
         c->add_residual[0]             = ff_hevc_add_residual_4x4_12_neon;