通过java实现过滤中文乱码

最近在日志数据清洗时遇到中文乱码,如果只要有非中文字符就将该字符串过滤掉,这种方法虽简单但并不可取,因为比如像Xperia™主題、天天四川麻将Ⅱ这样的字符串也会被过滤掉。

1. Unicode编码

Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式,简单一点说,就是一种通用的世界码;其编码范围:U+0000 .. U+10FFFF。按Unicode硬编码的区间进行划分,Unicode编码被分成若干个block ( Unicode block);每一个Unicode编码专属于唯一的Unicode block,Unicode block之间互不重叠。从码字的本身的属性出发,Unicode编码被分成了若干script ( Unicode script);比如,与中文相关的字符、标点的scriptHan包括block如下:

CJK Radicals Supplement

Kangxi Radicals

CJK Symbols and Punctuation中的15个字符

CJK Unified Ideographs Extension A

CJK Unified Ideographs

CJK Compatibility Ideographs

CJK Unified Ideographs Extension B

CJK Unified Ideographs Extension C

CJK Unified Ideographs Extension D

CJK Unified Ideographs Extension E

CJK Compatibility Ideographs Supplement

其中,常见的中文字符在CJK Unified Ideographs block;此外,考虑繁体字及不常见字等,CJK还有A、B、C、D、E五个extension。Basic Latin block完整地包含了ASCII码的控制字符、标点字符与英文字母字符。

2. Java的字符编码

JDK完整实现Unicode的block与script:

Char c = ''
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);

Java中的字符char内置的编码方式是UTF-16,当char强转成int类型时,其返回值是unicode编码值,只有当getbyte时才返回的是utf-8编码的byte:

String s = "\u00a0";
String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0
import org.apache.commons.codec.binary.Hex;
Hex.encodeHex(s.getBytes()) // --> c2a0

UTF-8是Unicode字符的变长前缀编码的一种实现,二者之间的对应关系在这里.现在我们回到开篇过滤中文乱码的问题,有一个基本解决思路:

  • 去掉各种标点字符、控制字符,
  • 计算剩下字符中非中文字符所占的比例,如果超过阈值,则认为该字符串为乱码串

完整代码如下:

public class ChineseUtill {
   
   private static boolean isChinese(char c) {
       Character.UnicodeScript sc = Character.UnicodeScript.of(c);
       if (sc == Character.UnicodeScript.HAN) {
           return true;
       }
       return false;
   }
   
   public static boolean isPunctuation(char c) {
       Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
       if (    // punctuation, spacing, and formatting characters
               ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
               // symbols and punctuation in the unified Chinese, Japanese and Korean script
               || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
               // fullwidth character or a halfwidth character
               || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
               // vertical glyph variants for east Asian compatibility
               || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
               // vertical punctuation for compatibility characters with the Chinese Standard GB 18030
               || ub == Character.UnicodeBlock.VERTICAL_FORMS
               // ascii
               || ub == Character.UnicodeBlock.BASIC_LATIN
               ) {
           return true;
       } else {
           return false;
       }
   }
   
   private static Boolean isUserDefined(char c) {
       Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
       if (ub == Character.UnicodeBlock.NUMBER_FORMS
               || ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS
               || ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS
               || c == '\ufeff'
               || c == '\u00a0'
               )
           return true;
       return false;
   }
   
   public static Boolean isMessy(String str)  {
       float chlength = 0;
       float count = 0;
       for(int i = 0; i if(isPunctuation(c) || isUserDefined(c))
               continue;
           else {
               if(!isChinese(c)) {
                   count = count + 1;
               }
               chlength ++;
           }
       }
       float result = count / chlength;
       if(result > 0.3)
           return true;
       return false;
   }
   
}

为了得到更为完整的可接受的字符表,定义isUserDefined方法(具体字符表与日志中的字符有关系);加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols这三个block,以及\u00a0(Non-breaking space)字符与\ufeff(ZERO WIDTH NO-BREAK SPACE)字符。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/222179.html<

(0)
运维的头像运维
上一篇2025-04-15 09:16
下一篇 2025-04-15 09:17

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注