From patchwork Mon Nov  5 10:05:16 2018
Content-Type: text/plain; charset="utf-8"
MIME-Version: 1.0
Content-Transfer-Encoding: 7bit
X-Patchwork-Submitter: Shiyou Yin <yinshiyou-hf@loongson.cn>
X-Patchwork-Id: 10928
Return-Path: <ffmpeg-devel-bounces@ffmpeg.org>
X-Original-To: patchwork@ffaux-bg.ffmpeg.org
Delivered-To: patchwork@ffaux-bg.ffmpeg.org
Received: from ffbox0-bg.mplayerhq.hu (ffbox0-bg.ffmpeg.org [79.124.17.100])
	by ffaux.localdomain (Postfix) with ESMTP id 17DAC44C647
	for <patchwork@ffaux-bg.ffmpeg.org>;
	Mon,  5 Nov 2018 12:05:24 +0200 (EET)
Received: from [127.0.1.1] (localhost [127.0.0.1])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id 7FFF168A6A5;
	Mon,  5 Nov 2018 12:04:55 +0200 (EET)
X-Original-To: ffmpeg-devel@ffmpeg.org
Delivered-To: ffmpeg-devel@ffmpeg.org
Received: from mail.loongson.cn (mail.loongson.cn [114.242.206.163])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id D830C68A65E
	for <ffmpeg-devel@ffmpeg.org>; Mon,  5 Nov 2018 12:04:45 +0200 (EET)
Received: from localhost (unknown [210.45.123.188])
	by mail (Coremail) with SMTP id QMiowPDxib7cFeBbRxAoAA--.27112S3;
	Mon, 05 Nov 2018 18:05:16 +0800 (CST)
From: Shiyou Yin <yinshiyou-hf@loongson.cn>
To: ffmpeg-devel@ffmpeg.org
Date: Mon,  5 Nov 2018 18:05:16 +0800
Message-Id: <1541412316-11048-1-git-send-email-yinshiyou-hf@loongson.cn>
X-Mailer: git-send-email 2.1.0
X-CM-TRANSID: QMiowPDxib7cFeBbRxAoAA--.27112S3
X-Coremail-Antispam: 1UD129KBjvAXoWDArWUKw1fKF4ftFWfWr45Jrb_yoWrCFW3Go
	W5GrW8tasrJa4xJr4kAr1UCw4FyFyUtryUXr4fJw43KryDXr18Cr4rCw45Jr4vqw43JrW3
	AF1vqF17Za1UG3y8n29KB7ZKAUJUUUU8529EdanIXcx71UUUUU7v73VFW2AGmfu7bjvjm3
	AaLaJ3UjIYCTnIWjp_UUUYT7k0a2IF6w4kM7kC6x804xWl14x267AKxVWUJVW8JwAFc2x0
	x2IEx4CE42xK8VAvwI8IcIk0rVWrJVCq3wAFIxvE14AKwVWUJVWUGwA2ocxC64kIII0Yj4
	1l84x0c7CEw4AK67xGY2AK021l84ACjcxK6xIIjxv20xvE14v26r4j6ryUM28EF7xvwVC0
	I7IYx2IY6xkF7I0E14v26r4j6F4UM28EF7xvwVC2z280aVAFwI0_Gr1j6F4UJwA2z4x0Y4
	vEx4A2jsIEc7CjxVAFwI0_GcCE3s1le2I262IYc4CY6c8Ij28IcVAaY2xG8wAqx4xG64xv
	F2IEw4CE5I8CrVC2j2WlYx0E2Ix0cI8IcVAFwI0_JrI_JrylYx0Ex4A2jsIE14v26r1j6r
	4UMcvjeVCFs4IE7xkEbVWUJVW8JwACjcxG0xvY0x0EwIxGrwACjcxG0xvY0x0EwIxGrVCF
	72vEw4AK0wCY02Avz4vE14v_Gw1l42xK82IYc2Ij64vIr41l4I8I3I0E4IkC6x0Yz7v_Jr
	0_Gr1lx2IqxVAqx4xG67AKxVWUJVWUGwC20s026x8GjcxK67AKxVWUGVWUWwC2zVAF1VAY
	17CE14v26r1j6r15MIIYrxkI7VAKI48JMIIF0xvE2Ix0cI8IcVAFwI0_Jr0_JF4lIxAIcV
	C0I7IYx2IY6xkF7I0E14v26r1j6r4UMIIF0xvE42xK8VAvwI8IcIk0rVW3JVWrJr1lIxAI
	cVC2z280aVAFwI0_Jr0_Gr1lIxAIcVC2z280aVCY1x0267AKxVWUJVW8JbIYCTnIWIevJa
	73UjIFyTuYvjxUgucEUUUUU
X-CM-SenderInfo: p1lq2x5l1r3gtki6z05rqj20fqof0/
Subject: [FFmpeg-devel] [PATCH] avcodec/mips: [loongson] refine optimization
	in h264_chroma.
X-BeenThere: ffmpeg-devel@ffmpeg.org
X-Mailman-Version: 2.1.20
Precedence: list
List-Id: FFmpeg development discussions and patches <ffmpeg-devel.ffmpeg.org>
List-Unsubscribe: <http://ffmpeg.org/mailman/options/ffmpeg-devel>,
	<mailto:ffmpeg-devel-request@ffmpeg.org?subject=unsubscribe>
List-Archive: <http://ffmpeg.org/pipermail/ffmpeg-devel/>
List-Post: <mailto:ffmpeg-devel@ffmpeg.org>
List-Help: <mailto:ffmpeg-devel-request@ffmpeg.org?subject=help>
List-Subscribe: <http://ffmpeg.org/mailman/listinfo/ffmpeg-devel>,
	<mailto:ffmpeg-devel-request@ffmpeg.org?subject=subscribe>
Reply-To: FFmpeg development discussions and patches
	<ffmpeg-devel@ffmpeg.org>
MIME-Version: 1.0
Errors-To: ffmpeg-devel-bounces@ffmpeg.org
Sender: "ffmpeg-devel" <ffmpeg-devel-bounces@ffmpeg.org>

Remove invalid operation in the case x and y all equal 0,
this refine made about 2% speedup for H264 decode on loongson platform.
---
 libavcodec/mips/h264chroma_mmi.c | 970 +++++++++++++++++----------------------
 1 file changed, 426 insertions(+), 544 deletions(-)

diff --git a/libavcodec/mips/h264chroma_mmi.c b/libavcodec/mips/h264chroma_mmi.c
index 91b2cc4..afda5be 100644
--- a/libavcodec/mips/h264chroma_mmi.c
+++ b/libavcodec/mips/h264chroma_mmi.c
@@ -30,74 +30,177 @@ void ff_put_h264_chroma_mc8_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
         int h, int x, int y)
 {
     int A = 64, B, C, D, E;
-    double ftmp[10];
+    double ftmp[12];
     uint64_t tmp[1];
 
     if (!(x || y)) {
         /* x=0, y=0, A=64 */
         __asm__ volatile (
-            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
-            "dli        %[tmp0],    0x06                               \n\t"
-            "mtc1       %[tmp0],    %[ftmp4]                           \n\t"
-
             "1:                                                        \n\t"
+            MMI_ULDC1(%[ftmp0], %[src], 0x00)
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
             MMI_ULDC1(%[ftmp1], %[src], 0x00)
-            "addi       %[h],       %[h],           -0x04              \n\t"
             PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-            MMI_ULDC1(%[ftmp5], %[src], 0x00)
+            MMI_ULDC1(%[ftmp2], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-            MMI_ULDC1(%[ftmp6], %[src], 0x00)
+            MMI_ULDC1(%[ftmp3], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-            MMI_ULDC1(%[ftmp7], %[src], 0x00)
 
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]           \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp1],       %[ftmp0]           \n\t"
-            "psllh      %[ftmp1],   %[ftmp2],       %[ftmp4]           \n\t"
-            "psllh      %[ftmp2],   %[ftmp3],       %[ftmp4]           \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]           \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-            MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            "addi       %[h],       %[h],           -0x04              \n\t"
 
-            "punpcklbh  %[ftmp2],   %[ftmp5],       %[ftmp0]           \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp5],       %[ftmp0]           \n\t"
-            "psllh      %[ftmp1],   %[ftmp2],       %[ftmp4]           \n\t"
-            "psllh      %[ftmp2],   %[ftmp3],       %[ftmp4]           \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]           \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
+            MMI_SDC1(%[ftmp0], %[dst], 0x00)
             PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
             MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            MMI_SDC1(%[ftmp2], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            MMI_SDC1(%[ftmp3], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            "bnez       %[h],       1b                                 \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride)
+            : "memory"
+        );
+    } else if (x && y) {
+        /* x!=0, y!=0 */
+        D = x * y;
+        B = (x << 3) - D;
+        C = (y << 3) - D;
+        A = 64 - D - B - C;
 
-            "punpcklbh  %[ftmp2],   %[ftmp6],       %[ftmp0]           \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp6],       %[ftmp0]           \n\t"
-            "psllh      %[ftmp1],   %[ftmp2],       %[ftmp4]           \n\t"
-            "psllh      %[ftmp2],   %[ftmp3],       %[ftmp4]           \n\t"
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
+            "dli        %[tmp0],    0x06                               \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
+            "pshufh     %[B],       %[B],           %[ftmp0]           \n\t"
+            "mtc1       %[tmp0],    %[ftmp9]                           \n\t"
+            "pshufh     %[C],       %[C],           %[ftmp0]           \n\t"
+            "pshufh     %[D],       %[D],           %[ftmp0]           \n\t"
+
+            "1:                                                        \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            MMI_ULDC1(%[ftmp2], %[src], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
+            MMI_ULDC1(%[ftmp3], %[src], 0x00)
+            MMI_ULDC1(%[ftmp4], %[src], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
+            MMI_ULDC1(%[ftmp10], %[src], 0x00)
+            MMI_ULDC1(%[ftmp11], %[src], 0x01)
+            "addi       %[h],       %[h],           -0x02              \n\t"
+
+            "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp2],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp2],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[A]               \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[B]               \n\t"
+            "paddh      %[ftmp1],   %[ftmp5],       %[ftmp7]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[A]               \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[B]               \n\t"
+            "paddh      %[ftmp2],   %[ftmp6],       %[ftmp8]           \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[C]               \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[D]               \n\t"
+            "paddh      %[ftmp5],   %[ftmp5],       %[ftmp7]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[C]               \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[D]               \n\t"
+            "paddh      %[ftmp6],   %[ftmp6],       %[ftmp8]           \n\t"
+            "paddh      %[ftmp1],   %[ftmp1],       %[ftmp5]           \n\t"
+            "paddh      %[ftmp2],   %[ftmp2],       %[ftmp6]           \n\t"
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
             "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]           \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
+            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp9]           \n\t"
+            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp9]           \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+
+            "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[A]               \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[B]               \n\t"
+            "paddh      %[ftmp3],   %[ftmp5],       %[ftmp7]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[A]               \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[B]               \n\t"
+            "paddh      %[ftmp4],   %[ftmp6],       %[ftmp8]           \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp10],      %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp10],      %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp11],      %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp11],      %[ftmp0]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[C]               \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[D]               \n\t"
+            "paddh      %[ftmp5],   %[ftmp5],       %[ftmp7]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[C]               \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[D]               \n\t"
+            "paddh      %[ftmp6],   %[ftmp6],       %[ftmp8]           \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ftmp5]           \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ftmp6]           \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ff_pw_32]        \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ff_pw_32]        \n\t"
+            "psrlh      %[ftmp3],   %[ftmp3],       %[ftmp9]           \n\t"
+            "psrlh      %[ftmp4],   %[ftmp4],       %[ftmp9]           \n\t"
+            "packushb   %[ftmp3],   %[ftmp3],       %[ftmp4]           \n\t"
+
             MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            MMI_SDC1(%[ftmp3], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            "bnez       %[h],       1b                                 \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
+              [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
+              [ftmp8]"=&f"(ftmp[8]),        [ftmp9]"=&f"(ftmp[9]),
+              [ftmp10]"=&f"(ftmp[10]),      [ftmp11]"=&f"(ftmp[11]),
+              [tmp0]"=&r"(tmp[0]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
+              [A]"f"(A),                    [B]"f"(B),
+              [C]"f"(C),                    [D]"f"(D)
+            : "memory"
+        );
+    } else if (x) {
+        /* x!=0, y==0 */
+        E = x << 3;
+        A = 64 - E;
+
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
+            "dli        %[tmp0],    0x06                               \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
+            "pshufh     %[E],       %[E],           %[ftmp0]           \n\t"
+            "mtc1       %[tmp0],    %[ftmp7]                           \n\t"
+
+            "1:                                                        \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            MMI_ULDC1(%[ftmp2], %[src], 0x01)
+            "addi       %[h],       %[h],           -0x01              \n\t"
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
+
+            "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp3],   %[ftmp3],       %[A]               \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[E]               \n\t"
+            "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]           \n\t"
+            "pmullh     %[ftmp4],   %[ftmp4],       %[A]               \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[E]               \n\t"
+            "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]           \n\t"
 
-            "punpcklbh  %[ftmp2],   %[ftmp7],       %[ftmp0]           \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp7],       %[ftmp0]           \n\t"
-            "psllh      %[ftmp1],   %[ftmp2],       %[ftmp4]           \n\t"
-            "psllh      %[ftmp2],   %[ftmp3],       %[ftmp4]           \n\t"
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
             "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]           \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
+            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]           \n\t"
+            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]           \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
             MMI_SDC1(%[ftmp1], %[dst], 0x00)
-
-            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
             "bnez       %[h],       1b                                 \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
@@ -107,220 +210,80 @@ void ff_put_h264_chroma_mc8_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
               [tmp0]"=&r"(tmp[0]),
               [dst]"+&r"(dst),              [src]"+&r"(src),
               [h]"+&r"(h)
-            : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32)
+            : [stride]"r"((mips_reg)stride),
+              [ff_pw_32]"f"(ff_pw_32),
+              [A]"f"(A),                    [E]"f"(E)
             : "memory"
         );
     } else {
-        if (x && y) {
-            /* x!=0, y!=0 */
-            D = x * y;
-            B = (x << 3) - D;
-            C = (y << 3) - D;
-            A = 64 - D - B - C;
-
-            __asm__ volatile (
-                "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
-                "dli        %[tmp0],    0x06                               \n\t"
-                "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
-                "pshufh     %[B],       %[B],           %[ftmp0]           \n\t"
-                "mtc1       %[tmp0],    %[ftmp9]                           \n\t"
-                "pshufh     %[C],       %[C],           %[ftmp0]           \n\t"
-                "pshufh     %[D],       %[D],           %[ftmp0]           \n\t"
-
-                "1:                                                        \n\t"
-                MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                MMI_ULDC1(%[ftmp2], %[src], 0x01)
-                PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-                MMI_ULDC1(%[ftmp3], %[src], 0x00)
-                MMI_ULDC1(%[ftmp4], %[src], 0x01)
-                "addi       %[h],       %[h],           -0x02              \n\t"
-
-                "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp1],       %[ftmp0]           \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp2],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp2],       %[ftmp0]           \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[A]               \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[B]               \n\t"
-                "paddh      %[ftmp1],   %[ftmp5],       %[ftmp7]           \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[A]               \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[B]               \n\t"
-                "paddh      %[ftmp2],   %[ftmp6],       %[ftmp8]           \n\t"
-
-                "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]           \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]           \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[C]               \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[D]               \n\t"
-                "paddh      %[ftmp3],   %[ftmp5],       %[ftmp7]           \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[C]               \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[D]               \n\t"
-                "paddh      %[ftmp4],   %[ftmp6],       %[ftmp8]           \n\t"
-
-                "paddh      %[ftmp1],   %[ftmp1],       %[ftmp3]           \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
-                "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-                "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp9]           \n\t"
-                "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp9]           \n\t"
-                "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-                MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
-
-                MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                MMI_ULDC1(%[ftmp2], %[src], 0x01)
-                PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-                MMI_ULDC1(%[ftmp3], %[src], 0x00)
-                MMI_ULDC1(%[ftmp4], %[src], 0x01)
-
-                "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp1],       %[ftmp0]           \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp2],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp2],       %[ftmp0]           \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[A]               \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[B]               \n\t"
-                "paddh      %[ftmp1],   %[ftmp5],       %[ftmp7]           \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[A]               \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[B]               \n\t"
-                "paddh      %[ftmp2],   %[ftmp6],       %[ftmp8]           \n\t"
-
-                "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]           \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]           \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]           \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[C]               \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[D]               \n\t"
-                "paddh      %[ftmp3],   %[ftmp5],       %[ftmp7]           \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[C]               \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[D]               \n\t"
-                "paddh      %[ftmp4],   %[ftmp6],       %[ftmp8]           \n\t"
-
-                "paddh      %[ftmp1],   %[ftmp1],       %[ftmp3]           \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ftmp4]           \n\t"
-                "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-                "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp9]           \n\t"
-                "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp9]           \n\t"
-                "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-                MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
-
-                "bnez       %[h],       1b                                 \n\t"
-                : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                  [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                  [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                  [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                  [ftmp8]"=&f"(ftmp[8]),        [ftmp9]"=&f"(ftmp[9]),
-                  [tmp0]"=&r"(tmp[0]),
-                  [dst]"+&r"(dst),              [src]"+&r"(src),
-                  [h]"+&r"(h)
-                : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
-                  [A]"f"(A),                    [B]"f"(B),
-                  [C]"f"(C),                    [D]"f"(D)
-                : "memory"
-            );
-        } else {
-            if (x) {
-                /* x!=0, y==0 */
-                E = x << 3;
-                A = 64 - E;
-
-                __asm__ volatile (
-                    "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
-                    "dli        %[tmp0],    0x06                               \n\t"
-                    "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
-                    "pshufh     %[E],       %[E],           %[ftmp0]           \n\t"
-                    "mtc1       %[tmp0],    %[ftmp7]                           \n\t"
-
-                    "1:                                                        \n\t"
-                    MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                    MMI_ULDC1(%[ftmp2], %[src], 0x01)
-                    "addi       %[h],       %[h],           -0x01              \n\t"
-                    PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-
-                    "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]           \n\t"
-                    "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]           \n\t"
-                    "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]           \n\t"
-                    "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]           \n\t"
-                    "pmullh     %[ftmp3],   %[ftmp3],       %[A]               \n\t"
-                    "pmullh     %[ftmp5],   %[ftmp5],       %[E]               \n\t"
-                    "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]           \n\t"
-                    "pmullh     %[ftmp4],   %[ftmp4],       %[A]               \n\t"
-                    "pmullh     %[ftmp6],   %[ftmp6],       %[E]               \n\t"
-                    "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]           \n\t"
-
-                    "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-                    "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-                    "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]           \n\t"
-                    "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]           \n\t"
-                    "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-                    MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                    PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
-                    "bnez       %[h],       1b                                 \n\t"
-                    : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                      [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                      [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                      [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                      [tmp0]"=&r"(tmp[0]),
-                      [dst]"+&r"(dst),              [src]"+&r"(src),
-                      [h]"+&r"(h)
-                    : [stride]"r"((mips_reg)stride),
-                      [ff_pw_32]"f"(ff_pw_32),
-                      [A]"f"(A),                    [E]"f"(E)
-                    : "memory"
-                );
-            } else {
-                /* x==0, y!=0 */
-                E = y << 3;
-                A = 64 - E;
-
-                __asm__ volatile (
-                    "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
-                    "dli        %[tmp0],    0x06                               \n\t"
-                    "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
-                    "pshufh     %[E],       %[E],           %[ftmp0]           \n\t"
-                    "mtc1       %[tmp0],    %[ftmp7]                           \n\t"
-
-                    "1:                                                        \n\t"
-                    MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                    PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
-                    MMI_ULDC1(%[ftmp2], %[src], 0x00)
-                    "addi       %[h],       %[h],           -0x01              \n\t"
-
-                    "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]           \n\t"
-                    "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]           \n\t"
-                    "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]           \n\t"
-                    "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]           \n\t"
-                    "pmullh     %[ftmp3],   %[ftmp3],       %[A]               \n\t"
-                    "pmullh     %[ftmp5],   %[ftmp5],       %[E]               \n\t"
-                    "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]           \n\t"
-                    "pmullh     %[ftmp4],   %[ftmp4],       %[A]               \n\t"
-                    "pmullh     %[ftmp6],   %[ftmp6],       %[E]               \n\t"
-                    "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]           \n\t"
-
-                    "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]        \n\t"
-                    "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]        \n\t"
-                    "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]           \n\t"
-                    "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]           \n\t"
-                    "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]           \n\t"
-                    MMI_SDC1(%[ftmp1], %[dst], 0x00)
-
-                    PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
-                    "bnez       %[h],       1b                                 \n\t"
-                    : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                      [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                      [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                      [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                      [tmp0]"=&r"(tmp[0]),
-                      [dst]"+&r"(dst),              [src]"+&r"(src),
-                      [h]"+&r"(h)
-                    : [stride]"r"((mips_reg)stride),
-                      [ff_pw_32]"f"(ff_pw_32),
-                      [A]"f"(A),                    [E]"f"(E)
-                    : "memory"
-                );
-            }
-        }
+        /* x==0, y!=0 */
+        E = y << 3;
+        A = 64 - E;
+
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]           \n\t"
+            "dli        %[tmp0],    0x06                               \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]           \n\t"
+            "pshufh     %[E],       %[E],           %[ftmp0]           \n\t"
+            "mtc1       %[tmp0],    %[ftmp7]                           \n\t"
+
+            "1:                                                        \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
+            MMI_ULDC1(%[ftmp2], %[src], 0x00)
+            PTR_ADDU   "%[src],     %[src],         %[stride]          \n\t"
+            MMI_ULDC1(%[ftmp8], %[src], 0x00)
+            "addi       %[h],       %[h],           -0x02              \n\t"
+
+            "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp3],   %[ftmp3],       %[A]               \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[E]               \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ftmp5]           \n\t"
+            "pmullh     %[ftmp4],   %[ftmp4],       %[A]               \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[E]               \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ftmp6]           \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ff_pw_32]        \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ff_pw_32]        \n\t"
+            "psrlh      %[ftmp3],   %[ftmp3],       %[ftmp7]           \n\t"
+            "psrlh      %[ftmp4],   %[ftmp4],       %[ftmp7]           \n\t"
+            "packushb   %[ftmp1],   %[ftmp3],       %[ftmp4]           \n\t"
+
+            "punpcklbh  %[ftmp3],   %[ftmp2],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp4],   %[ftmp2],       %[ftmp0]           \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp8],       %[ftmp0]           \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp8],       %[ftmp0]           \n\t"
+            "pmullh     %[ftmp3],   %[ftmp3],       %[A]               \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[E]               \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ftmp5]           \n\t"
+            "pmullh     %[ftmp4],   %[ftmp4],       %[A]               \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[E]               \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ftmp6]           \n\t"
+            "paddh      %[ftmp3],   %[ftmp3],       %[ff_pw_32]        \n\t"
+            "paddh      %[ftmp4],   %[ftmp4],       %[ff_pw_32]        \n\t"
+            "psrlh      %[ftmp3],   %[ftmp3],       %[ftmp7]           \n\t"
+            "psrlh      %[ftmp4],   %[ftmp4],       %[ftmp7]           \n\t"
+            "packushb   %[ftmp2],   %[ftmp3],       %[ftmp4]           \n\t"
+
+            MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            MMI_SDC1(%[ftmp2], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]          \n\t"
+            "bnez       %[h],       1b                                 \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
+              [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
+              [ftmp8]"=&f"(ftmp[8]),        [tmp0]"=&r"(tmp[0]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride),
+              [ff_pw_32]"f"(ff_pw_32),
+              [A]"f"(A),                    [E]"f"(E)
+            : "memory"
+        );
     }
 }
 
@@ -334,231 +297,200 @@ void ff_avg_h264_chroma_mc8_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
     if(!(x || y)){
         /* x=0, y=0, A=64 */
         __asm__ volatile (
-            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]            \n\t"
-            "dli        %[tmp0],    0x06                                \n\t"
-            "pshufh     %[A],       %[A],           %[ftmp0]            \n\t"
-            "mtc1       %[tmp0],    %[ftmp4]                            \n\t"
-
             "1:                                                         \n\t"
-            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            MMI_ULDC1(%[ftmp0], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
-            MMI_ULDC1(%[ftmp5], %[src], 0x00)
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
-
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]            \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp1],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "pmullh     %[ftmp2],   %[ftmp3],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]            \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
             MMI_LDC1(%[ftmp2], %[dst], 0x00)
-            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
-            MMI_SDC1(%[ftmp1], %[dst], 0x00)
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
-
-            "punpcklbh  %[ftmp2],   %[ftmp5],       %[ftmp0]            \n\t"
-            "punpckhbh  %[ftmp3],   %[ftmp5],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "pmullh     %[ftmp2],   %[ftmp3],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp4]            \n\t"
-            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp4]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
-            MMI_LDC1(%[ftmp2], %[dst], 0x00)
-            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
+            MMI_LDC1(%[ftmp3], %[dst], 0x00)
+            PTR_SUBU   "%[dst],     %[dst],         %[stride]           \n\t"
+            "pavgb      %[ftmp0],   %[ftmp0],       %[ftmp2]            \n\t"
+            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
+            MMI_SDC1(%[ftmp0], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             MMI_SDC1(%[ftmp1], %[dst], 0x00)
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
-
             "addi       %[h],       %[h],           -0x02               \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
               [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride)
+            : "memory"
+        );
+    } else if(x && y) {
+        /* x!=0, y!=0 */
+        D = x * y;
+        B = (x << 3) - D;
+        C = (y << 3) - D;
+        A = 64 - D - B - C;
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
+            "dli        %[tmp0],    0x06                           \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
+            "pshufh     %[B],       %[B],           %[ftmp0]       \n\t"
+            "mtc1       %[tmp0],    %[ftmp9]                       \n\t"
+            "pshufh     %[C],       %[C],           %[ftmp0]       \n\t"
+            "pshufh     %[D],       %[D],           %[ftmp0]       \n\t"
+
+            "1:                                                    \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            MMI_ULDC1(%[ftmp2], %[src], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
+            MMI_ULDC1(%[ftmp3], %[src], 0x00)
+            MMI_ULDC1(%[ftmp4], %[src], 0x01)
+            "addi       %[h],       %[h],           -0x01          \n\t"
+
+            "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp2],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp2],       %[ftmp0]       \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[A]           \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[B]           \n\t"
+            "paddh      %[ftmp1],   %[ftmp5],       %[ftmp7]       \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[A]           \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[B]           \n\t"
+            "paddh      %[ftmp2],   %[ftmp6],       %[ftmp8]       \n\t"
+
+            "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]       \n\t"
+            "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]       \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[C]           \n\t"
+            "pmullh     %[ftmp7],   %[ftmp7],       %[D]           \n\t"
+            "paddh      %[ftmp3],   %[ftmp5],       %[ftmp7]       \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[C]           \n\t"
+            "pmullh     %[ftmp8],   %[ftmp8],       %[D]           \n\t"
+            "paddh      %[ftmp4],   %[ftmp6],       %[ftmp8]       \n\t"
+
+            "paddh      %[ftmp1],   %[ftmp1],       %[ftmp3]       \n\t"
+            "paddh      %[ftmp2],   %[ftmp2],       %[ftmp4]       \n\t"
+            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
+            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
+            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp9]       \n\t"
+            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp9]       \n\t"
+            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_LDC1(%[ftmp2], %[dst], 0x00)
+            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
+            "bnez       %[h],       1b                             \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
               [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
+              [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
+              [ftmp8]"=&f"(ftmp[8]),        [ftmp9]"=&f"(ftmp[9]),
               [tmp0]"=&r"(tmp[0]),
               [dst]"+&r"(dst),              [src]"+&r"(src),
               [h]"+&r"(h)
             : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
-              [A]"f"(A)
+              [A]"f"(A),                    [B]"f"(B),
+              [C]"f"(C),                    [D]"f"(D)
+            : "memory"
+        );
+    } else if(x) {
+        /* x!=0, y==0 */
+        E = x << 3;
+        A = 64 - E;
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
+            "dli        %[tmp0],    0x06                           \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
+            "pshufh     %[E],       %[E],           %[ftmp0]       \n\t"
+            "mtc1       %[tmp0],    %[ftmp7]                       \n\t"
+
+            "1:                                                    \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            MMI_ULDC1(%[ftmp2], %[src], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
+            "addi       %[h],       %[h],           -0x01          \n\t"
+
+            "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]       \n\t"
+            "pmullh     %[ftmp3],   %[ftmp3],       %[A]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[E]           \n\t"
+            "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]       \n\t"
+            "pmullh     %[ftmp4],   %[ftmp4],       %[A]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[E]           \n\t"
+            "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]       \n\t"
+
+            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
+            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
+            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]       \n\t"
+            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]       \n\t"
+            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_LDC1(%[ftmp2], %[dst], 0x00)
+            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
+            "bnez       %[h],       1b                             \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
+              [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
+              [tmp0]"=&r"(tmp[0]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride),
+              [ff_pw_32]"f"(ff_pw_32),
+              [A]"f"(A),                    [E]"f"(E)
             : "memory"
         );
     } else {
-        if(x && y) {
-            /* x!=0, y!=0 */
-            D = x * y;
-            B = (x << 3) - D;
-            C = (y << 3) - D;
-            A = 64 - D - B - C;
-            __asm__ volatile (
-                "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
-                "dli        %[tmp0],    0x06                           \n\t"
-                "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
-                "pshufh     %[B],       %[B],           %[ftmp0]       \n\t"
-                "mtc1       %[tmp0],    %[ftmp9]                       \n\t"
-                "pshufh     %[C],       %[C],           %[ftmp0]       \n\t"
-                "pshufh     %[D],       %[D],           %[ftmp0]       \n\t"
-
-                "1:                                                    \n\t"
-                MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                MMI_ULDC1(%[ftmp2], %[src], 0x01)
-                PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
-                MMI_ULDC1(%[ftmp3], %[src], 0x00)
-                MMI_ULDC1(%[ftmp4], %[src], 0x01)
-                "addi       %[h],       %[h],           -0x01          \n\t"
-
-                "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]       \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp1],       %[ftmp0]       \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp2],       %[ftmp0]       \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp2],       %[ftmp0]       \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[A]           \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[B]           \n\t"
-                "paddh      %[ftmp1],   %[ftmp5],       %[ftmp7]       \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[A]           \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[B]           \n\t"
-                "paddh      %[ftmp2],   %[ftmp6],       %[ftmp8]       \n\t"
-
-                "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]       \n\t"
-                "punpckhbh  %[ftmp6],   %[ftmp3],       %[ftmp0]       \n\t"
-                "punpcklbh  %[ftmp7],   %[ftmp4],       %[ftmp0]       \n\t"
-                "punpckhbh  %[ftmp8],   %[ftmp4],       %[ftmp0]       \n\t"
-                "pmullh     %[ftmp5],   %[ftmp5],       %[C]           \n\t"
-                "pmullh     %[ftmp7],   %[ftmp7],       %[D]           \n\t"
-                "paddh      %[ftmp3],   %[ftmp5],       %[ftmp7]       \n\t"
-                "pmullh     %[ftmp6],   %[ftmp6],       %[C]           \n\t"
-                "pmullh     %[ftmp8],   %[ftmp8],       %[D]           \n\t"
-                "paddh      %[ftmp4],   %[ftmp6],       %[ftmp8]       \n\t"
-
-                "paddh      %[ftmp1],   %[ftmp1],       %[ftmp3]       \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ftmp4]       \n\t"
-                "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
-                "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
-                "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp9]       \n\t"
-                "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp9]       \n\t"
-                "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                MMI_LDC1(%[ftmp2], %[dst], 0x00)
-                "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
-                "bnez       %[h],       1b                             \n\t"
-                : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                  [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                  [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                  [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                  [ftmp8]"=&f"(ftmp[8]),        [ftmp9]"=&f"(ftmp[9]),
-                  [tmp0]"=&r"(tmp[0]),
-                  [dst]"+&r"(dst),              [src]"+&r"(src),
-                  [h]"+&r"(h)
-                : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
-                  [A]"f"(A),                    [B]"f"(B),
-                  [C]"f"(C),                    [D]"f"(D)
-                : "memory"
-            );
-        } else {
-            if(x) {
-                /* x!=0, y==0 */
-                E = x << 3;
-                A = 64 - E;
-                __asm__ volatile (
-                    "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
-                    "dli        %[tmp0],    0x06                           \n\t"
-                    "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
-                    "pshufh     %[E],       %[E],           %[ftmp0]       \n\t"
-                    "mtc1       %[tmp0],    %[ftmp7]                       \n\t"
-
-                    "1:                                                    \n\t"
-                    MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                    MMI_ULDC1(%[ftmp2], %[src], 0x01)
-                    PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
-                    "addi       %[h],       %[h],           -0x01          \n\t"
-
-                    "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]       \n\t"
-                    "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]       \n\t"
-                    "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]       \n\t"
-                    "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]       \n\t"
-                    "pmullh     %[ftmp3],   %[ftmp3],       %[A]           \n\t"
-                    "pmullh     %[ftmp5],   %[ftmp5],       %[E]           \n\t"
-                    "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]       \n\t"
-                    "pmullh     %[ftmp4],   %[ftmp4],       %[A]           \n\t"
-                    "pmullh     %[ftmp6],   %[ftmp6],       %[E]           \n\t"
-                    "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]       \n\t"
-
-                    "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
-                    "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
-                    "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]       \n\t"
-                    "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]       \n\t"
-                    "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                    MMI_LDC1(%[ftmp2], %[dst], 0x00)
-                    "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                    MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                    PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
-                    "bnez       %[h],       1b                             \n\t"
-                    : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                      [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                      [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                      [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                      [tmp0]"=&r"(tmp[0]),
-                      [dst]"+&r"(dst),              [src]"+&r"(src),
-                      [h]"+&r"(h)
-                    : [stride]"r"((mips_reg)stride),
-                      [ff_pw_32]"f"(ff_pw_32),
-                      [A]"f"(A),                    [E]"f"(E)
-                    : "memory"
-                );
-            } else {
-                /* x==0, y!=0 */
-                E = y << 3;
-                A = 64 - E;
-                __asm__ volatile (
-                    "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
-                    "dli        %[tmp0],    0x06                           \n\t"
-                    "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
-                    "pshufh     %[E],       %[E],           %[ftmp0]       \n\t"
-                    "mtc1       %[tmp0],    %[ftmp7]                       \n\t"
-
-                    "1:                                                    \n\t"
-                    MMI_ULDC1(%[ftmp1], %[src], 0x00)
-                    PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
-                    MMI_ULDC1(%[ftmp2], %[src], 0x00)
-                    "addi       %[h],       %[h],           -0x01          \n\t"
-
-                    "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]       \n\t"
-                    "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]       \n\t"
-                    "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]       \n\t"
-                    "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]       \n\t"
-                    "pmullh     %[ftmp3],   %[ftmp3],       %[A]           \n\t"
-                    "pmullh     %[ftmp5],   %[ftmp5],       %[E]           \n\t"
-                    "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]       \n\t"
-                    "pmullh     %[ftmp4],   %[ftmp4],       %[A]           \n\t"
-                    "pmullh     %[ftmp6],   %[ftmp6],       %[E]           \n\t"
-                    "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]       \n\t"
-
-                    "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
-                    "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
-                    "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]       \n\t"
-                    "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]       \n\t"
-                    "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                    MMI_LDC1(%[ftmp2], %[dst], 0x00)
-                    "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
-                    MMI_SDC1(%[ftmp1], %[dst], 0x00)
-                    PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
-                    "bnez       %[h],       1b                             \n\t"
-                    : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-                      [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-                      [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
-                      [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
-                      [tmp0]"=&r"(tmp[0]),
-                      [dst]"+&r"(dst),              [src]"+&r"(src),
-                      [h]"+&r"(h)
-                    : [stride]"r"((mips_reg)stride),
-                      [ff_pw_32]"f"(ff_pw_32),
-                      [A]"f"(A),                    [E]"f"(E)
-                    : "memory"
-                );
-            }
-        }
+        /* x==0, y!=0 */
+        E = y << 3;
+        A = 64 - E;
+        __asm__ volatile (
+            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]       \n\t"
+            "dli        %[tmp0],    0x06                           \n\t"
+            "pshufh     %[A],       %[A],           %[ftmp0]       \n\t"
+            "pshufh     %[E],       %[E],           %[ftmp0]       \n\t"
+            "mtc1       %[tmp0],    %[ftmp7]                       \n\t"
+
+            "1:                                                    \n\t"
+            MMI_ULDC1(%[ftmp1], %[src], 0x00)
+            PTR_ADDU   "%[src],     %[src],         %[stride]      \n\t"
+            MMI_ULDC1(%[ftmp2], %[src], 0x00)
+            "addi       %[h],       %[h],           -0x01          \n\t"
+
+            "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp4],   %[ftmp1],       %[ftmp0]       \n\t"
+            "punpcklbh  %[ftmp5],   %[ftmp2],       %[ftmp0]       \n\t"
+            "punpckhbh  %[ftmp6],   %[ftmp2],       %[ftmp0]       \n\t"
+            "pmullh     %[ftmp3],   %[ftmp3],       %[A]           \n\t"
+            "pmullh     %[ftmp5],   %[ftmp5],       %[E]           \n\t"
+            "paddh      %[ftmp1],   %[ftmp3],       %[ftmp5]       \n\t"
+            "pmullh     %[ftmp4],   %[ftmp4],       %[A]           \n\t"
+            "pmullh     %[ftmp6],   %[ftmp6],       %[E]           \n\t"
+            "paddh      %[ftmp2],   %[ftmp4],       %[ftmp6]       \n\t"
+
+            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]    \n\t"
+            "paddh      %[ftmp2],   %[ftmp2],       %[ff_pw_32]    \n\t"
+            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]       \n\t"
+            "psrlh      %[ftmp2],   %[ftmp2],       %[ftmp7]       \n\t"
+            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_LDC1(%[ftmp2], %[dst], 0x00)
+            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]       \n\t"
+            MMI_SDC1(%[ftmp1], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]      \n\t"
+            "bnez       %[h],       1b                             \n\t"
+            : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
+              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
+              [ftmp4]"=&f"(ftmp[4]),        [ftmp5]"=&f"(ftmp[5]),
+              [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
+              [tmp0]"=&r"(tmp[0]),
+              [dst]"+&r"(dst),              [src]"+&r"(src),
+              [h]"+&r"(h)
+            : [stride]"r"((mips_reg)stride),
+              [ff_pw_32]"f"(ff_pw_32),
+              [A]"f"(A),                    [E]"f"(E)
+            : "memory"
+        );
     }
 }
 
@@ -567,8 +499,8 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
 {
     const int A = (8 - x) * (8 - y);
     const int B = x * (8 - y);
-    const int C = (8 - x) *  y;
-    const int D = x *  y;
+    const int C = (8 - x) * y;
+    const int D = x * y;
     const int E = B + C;
     double ftmp[8];
     uint64_t tmp[1];
@@ -586,31 +518,29 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
             "pshufh     %[D],       %[D],           %[ftmp0]            \n\t"
 
             "1:                                                         \n\t"
-            PTR_ADDU   "%[addr0],   %[src],         %[stride]           \n\t"
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
             MMI_ULWC1(%[ftmp2], %[src], 0x01)
-            MMI_ULWC1(%[ftmp3], %[addr0], 0x00)
-            MMI_ULWC1(%[ftmp4], %[addr0], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
+            MMI_ULWC1(%[ftmp3], %[src], 0x00)
+            MMI_ULWC1(%[ftmp4], %[src], 0x01)
 
             "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp6],   %[ftmp2],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp5],   %[ftmp5],       %[A]                \n\t"
             "pmullh     %[ftmp6],   %[ftmp6],       %[B]                \n\t"
             "paddh      %[ftmp1],   %[ftmp5],       %[ftmp6]            \n\t"
-
             "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp6],   %[ftmp4],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp5],   %[ftmp5],       %[C]                \n\t"
             "pmullh     %[ftmp6],   %[ftmp6],       %[D]                \n\t"
             "paddh      %[ftmp2],   %[ftmp5],       %[ftmp6]            \n\t"
-
             "paddh      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
             "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]            \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
+
             "addi       %[h],       %[h],           -0x01               \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
@@ -619,7 +549,6 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
               [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
               [tmp0]"=&r"(tmp[0]),
               RESTRICT_ASM_LOW32
-              [addr0]"=&r"(addr[0]),
               [dst]"+&r"(dst),              [src]"+&r"(src),
               [h]"+&r"(h)
             : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
@@ -629,7 +558,6 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
         );
     } else if (E) {
         const int step = C ? stride : 1;
-
         __asm__ volatile (
             "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]            \n\t"
             "dli        %[tmp0],    0x06                                \n\t"
@@ -638,22 +566,20 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
             "mtc1       %[tmp0],    %[ftmp5]                            \n\t"
 
             "1:                                                         \n\t"
-            PTR_ADDU   "%[addr0],   %[src],         %[step]             \n\t"
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
+            PTR_ADDU   "%[addr0],   %[src],         %[step]             \n\t"
             MMI_ULWC1(%[ftmp2], %[addr0], 0x00)
-
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
+            "addi       %[h],       %[h],           -0x01               \n\t"
             "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp4],   %[ftmp2],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp3],   %[ftmp3],       %[A]                \n\t"
             "pmullh     %[ftmp4],   %[ftmp4],       %[E]                \n\t"
             "paddh      %[ftmp1],   %[ftmp3],       %[ftmp4]            \n\t"
-
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
             "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp5]            \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
-            "addi       %[h],       %[h],           -0x01               \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
@@ -671,42 +597,22 @@ void ff_put_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
         );
     } else {
         __asm__ volatile (
-            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]            \n\t"
-            "dli        %[tmp0],    0x06                                \n\t"
-            "pshufh     %[A],       %[A],           %[ftmp0]            \n\t"
-            "mtc1       %[tmp0],    %[ftmp3]                            \n\t"
-
             "1:                                                         \n\t"
-            MMI_ULWC1(%[ftmp1], %[src], 0x00)
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
+            MMI_ULWC1(%[ftmp0], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
-            MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
-
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             "addi       %[h],       %[h],           -0x02               \n\t"
+            MMI_SWC1(%[ftmp0], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
-              [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-              [tmp0]"=&r"(tmp[0]),
-              RESTRICT_ASM_LOW32
               [dst]"+&r"(dst),              [src]"+&r"(src),
+              RESTRICT_ASM_LOW32
               [h]"+&r"(h)
-            : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
-              [A]"f"(A)
+            : [stride]"r"((mips_reg)stride)
             : "memory"
         );
     }
@@ -736,33 +642,31 @@ void ff_avg_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
             "pshufh     %[D],       %[D],           %[ftmp0]            \n\t"
 
             "1:                                                         \n\t"
-            PTR_ADDU   "%[addr0],   %[src],         %[stride]           \n\t"
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
             MMI_ULWC1(%[ftmp2], %[src], 0x01)
-            MMI_ULWC1(%[ftmp3], %[addr0], 0x00)
-            MMI_ULWC1(%[ftmp4], %[addr0], 0x01)
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
+            MMI_ULWC1(%[ftmp3], %[src], 0x00)
+            MMI_ULWC1(%[ftmp4], %[src], 0x01)
 
             "punpcklbh  %[ftmp5],   %[ftmp1],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp6],   %[ftmp2],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp5],   %[ftmp5],       %[A]                \n\t"
             "pmullh     %[ftmp6],   %[ftmp6],       %[B]                \n\t"
             "paddh      %[ftmp1],   %[ftmp5],       %[ftmp6]            \n\t"
-
             "punpcklbh  %[ftmp5],   %[ftmp3],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp6],   %[ftmp4],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp5],   %[ftmp5],       %[C]                \n\t"
             "pmullh     %[ftmp6],   %[ftmp6],       %[D]                \n\t"
             "paddh      %[ftmp2],   %[ftmp5],       %[ftmp6]            \n\t"
-
             "paddh      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
             "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp7]            \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
             MMI_LWC1(%[ftmp2], %[dst], 0x00)
             "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
+
             "addi       %[h],       %[h],           -0x01               \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
@@ -771,7 +675,6 @@ void ff_avg_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
               [ftmp6]"=&f"(ftmp[6]),        [ftmp7]"=&f"(ftmp[7]),
               [tmp0]"=&r"(tmp[0]),
               RESTRICT_ASM_LOW32
-              [addr0]"=&r"(addr[0]),
               [dst]"+&r"(dst),              [src]"+&r"(src),
               [h]"+&r"(h)
             : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
@@ -781,32 +684,30 @@ void ff_avg_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
         );
     } else if (E) {
         const int step = C ? stride : 1;
-
         __asm__ volatile (
             "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]            \n\t"
             "dli        %[tmp0],    0x06                                \n\t"
             "pshufh     %[A],       %[A],           %[ftmp0]            \n\t"
             "pshufh     %[E],       %[E],           %[ftmp0]            \n\t"
             "mtc1       %[tmp0],    %[ftmp5]                            \n\t"
+
             "1:                                                         \n\t"
-            PTR_ADDU   "%[addr0],   %[src],         %[step]             \n\t"
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
+            PTR_ADDU   "%[addr0],   %[src],         %[step]             \n\t"
             MMI_ULWC1(%[ftmp2], %[addr0], 0x00)
-
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
+            "addi       %[h],       %[h],           -0x01               \n\t"
             "punpcklbh  %[ftmp3],   %[ftmp1],       %[ftmp0]            \n\t"
             "punpcklbh  %[ftmp4],   %[ftmp2],       %[ftmp0]            \n\t"
             "pmullh     %[ftmp3],   %[ftmp3],       %[A]                \n\t"
             "pmullh     %[ftmp4],   %[ftmp4],       %[E]                \n\t"
             "paddh      %[ftmp1],   %[ftmp3],       %[ftmp4]            \n\t"
-
             "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
             "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp5]            \n\t"
             "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
             MMI_LWC1(%[ftmp2], %[dst], 0x00)
             "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
-            "addi       %[h],       %[h],           -0x01               \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
@@ -824,46 +725,27 @@ void ff_avg_h264_chroma_mc4_mmi(uint8_t *dst, uint8_t *src, ptrdiff_t stride,
         );
     } else {
         __asm__ volatile (
-            "xor        %[ftmp0],   %[ftmp0],       %[ftmp0]            \n\t"
-            "dli        %[tmp0],    0x06                                \n\t"
-            "pshufh     %[A],       %[A],           %[ftmp0]            \n\t"
-            "mtc1       %[tmp0],    %[ftmp3]                            \n\t"
-
             "1:                                                         \n\t"
-            MMI_ULWC1(%[ftmp1], %[src], 0x00)
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
-            MMI_LWC1(%[ftmp2], %[dst], 0x00)
-            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
+            MMI_ULWC1(%[ftmp0], %[src], 0x00)
             PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
-            MMI_SWC1(%[ftmp1], %[dst], 0x00)
-            PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
-
             MMI_ULWC1(%[ftmp1], %[src], 0x00)
-            "punpcklbh  %[ftmp2],   %[ftmp1],       %[ftmp0]            \n\t"
-            "pmullh     %[ftmp1],   %[ftmp2],       %[A]                \n\t"
-            "paddh      %[ftmp1],   %[ftmp1],       %[ff_pw_32]         \n\t"
-            "psrlh      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
-            "packushb   %[ftmp1],   %[ftmp1],       %[ftmp0]            \n\t"
-            MMI_LWC1(%[ftmp2], %[dst], 0x00)
-            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp2]            \n\t"
+            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             "addi       %[h],       %[h],           -0x02               \n\t"
+            MMI_LWC1(%[ftmp2], %[dst], 0x00)
+            "pavgb      %[ftmp0],   %[ftmp0],       %[ftmp2]            \n\t"
+            MMI_SWC1(%[ftmp0], %[dst], 0x00)
+            PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
+            MMI_LWC1(%[ftmp3], %[dst], 0x00)
+            "pavgb      %[ftmp1],   %[ftmp1],       %[ftmp3]            \n\t"
             MMI_SWC1(%[ftmp1], %[dst], 0x00)
-
-            PTR_ADDU   "%[src],     %[src],         %[stride]           \n\t"
             PTR_ADDU   "%[dst],     %[dst],         %[stride]           \n\t"
             "bnez       %[h],       1b                                  \n\t"
             : [ftmp0]"=&f"(ftmp[0]),        [ftmp1]"=&f"(ftmp[1]),
               [ftmp2]"=&f"(ftmp[2]),        [ftmp3]"=&f"(ftmp[3]),
-              [tmp0]"=&r"(tmp[0]),
-              RESTRICT_ASM_LOW32
               [dst]"+&r"(dst),              [src]"+&r"(src),
+              RESTRICT_ASM_LOW32
               [h]"+&r"(h)
-            : [stride]"r"((mips_reg)stride),[ff_pw_32]"f"(ff_pw_32),
-              [A]"f"(A)
+            : [stride]"r"((mips_reg)stride)
             : "memory"
         );
     }