全文内容推荐引擎之中文分词

基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。

对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基本步聚是先对文本内容进行分词,包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等;第二步是计算各个词在每篇文章中的出现频率,以及在所有文章中的出现频率,即TF/IDF;第三步计算文章向量;***是利用自动聚类算法,对条目进行聚类,这样就可以实现向用户推荐同类产品的需求了。

但是在这里有一个非常重要的问题没有解决,就是中文分词的问题,这些文章中绝大部分都是以英文为背景的,而英文分词方面,分出单词很简单,只需要空格作为分隔符就可以了,而中文中词与词之间没有空格,其次是英文中单复数、过去分词等比较多,需要还原成单数现在式,但是中文中这个问题基本不存在,再有就是英文需要在分词后识别长的词组,而中文这一步也不需进行。

针对以上这些难题,在我的项目中,采用了MMSeg4j中文分词模块,这个项目集成了据说是搜狗输入法的10万多词库(大家知道中文分词的关键是中文词库)。

另外,我还希望中文分词可以在全文检索引擎和全文内容推荐引擎共用,由于全文检索引擎采用了Apache Lucene 3.x版本,需要中文分词模块符合Lucene的体系架构,幸运的是MMSeg4j提供了Lucene所需的Tokenizer实现类,同时还需要重点解决如下问题:

  • 由于打开索引文件比较慢,所以整个程序共享一个indexer和searcher
  • 考虑到准实时性需求,采用了Lucene新版本中reopen机制,每次查询前读入索引增量
  • 采用Lucene默锁机制

在项目中我定义了全文检索引擎类:

  1. public class FteEngine { 
  2.  
  3.   public static void initFteEngine(String _indexPathname) { 
  4.     indexPathname = _indexPathname; 
  5.   } 
  6.  
  7.   public static FteEngine getInstance() { // Singleton模式 
  8.     if (null == engine) { 
  9.       engine = new FteEngine(); 
  10.     } 
  11.     return engine; 
  12.   } 
  13.  
  14.   public IndexWriter getIndexWriter() { 
  15.     return writer; 
  16.   } 
  17.  
  18.   public IndexSearcher getIndexSearcher() { 
  19.     try { 
  20.       IndexReader newReader = reader.reopen(); // 读入新增加的增量索引内容,满足实时索引需求 
  21.       if (!reader.equals(newReader)) { 
  22.         reader.close(); 
  23.         reader = newReader; 
  24.       } 
  25.       searcher = new IndexSearcher(reader); 
  26.     } catch (CorruptIndexException e) { .... 
  27.  
  28.     } catch (IOException e) {.... 
  29.     } 
  30.     return searcher; 
  31.   } 
  32.  
  33.   public Analyzer getAnalyzer() { 
  34.     return analyzer; 
  35.   } 
  36.  
  37.   public void stop() { 
  38.     try { 
  39.       if (searcher != null) { 
  40.         searcher.close(); 
  41.       } 
  42.       reader.close(); 
  43.     writer.close(); 
  44.     indexDir.close(); 
  45.     } catch (IOException e) {.... 
  46.     } 
  47.   } 
  48.  
  49.   private FteEngine() { 
  50.     analyzer = new MMSegAnalyzer(); // 初始化中文分词模块,会读入中文字典 
  51.     IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_31, analyzer); 
  52.     iwc.setOpenMode(OpenMode.CREATE_OR_APPEND); 
  53.     try { 
  54.       indexDir = FSDirectory.open(new File(indexPathname)); 
  55.       writer = new IndexWriter(indexDir, iwc); // writer和reader整个程序共用 
  56.       reader = IndexReader.open(writer, true); 
  57.     } catch (CorruptIndexException e) {...... 
  58.     } catch (LockObtainFailedException e) {...... 
  59.     } catch (IOException e) {..... 
  60.  
  61.     } 
  62.   } 
  63.   private static FteEngine engine = null; 
  64.   private static String indexPathname = null; 
  65.   private Directory indexDir = null; 
  66.   private IndexWriter writer = null; 
  67.   private IndexSearcher searcher = null; 
  68.   private Analyzer analyzer = null; 
  69.   private IndexReader reader = null; 
  70.  
  71. 具体中文分词可以使用如下代码: 
  72.  
  73. FteEngine fteEngine = FteEngine.getInstance(); 
  74. Analyzer analyzer = fteEngine.getAnalyzer(); 
  75. String text = "测试2011年如java有意见 分岐其中华人民共合国,oracle咬死猎人的狗!"
  76. TokenStream tokenStrm = analyzer.tokenStream("contents"new StringReader(text)); 
  77. OffsetAttribute offsetAttr = tokenStrm.getAttribute(OffsetAttribute.class); 
  78. CharTermAttribute charTermAttr = tokenStrm.getAttribute(CharTermAttribute.class); 
  79. String term = null; 
  80. int i = 0; 
  81. int len = 0; 
  82. char[] charBuf = null; 
  83. try { 
  84.   while (tokenStrm.incrementToken()) { 
  85.   charBuf = charTermAttr.buffer(); 
  86.   for (i = (charBuf.length - 1); i >= 0; i--) { 
  87.     if (charBuf[i] > 0) { 
  88.       len = i + 1; 
  89.       break
  90.     } 
  91.   } 
  92.   //term = new String(charBuf, offsetAttr.startOffset(), offsetAttr.endOffset()); 
  93.   term = new String(charBuf, 0, offsetAttr.endOffset() - offsetAttr.startOffset()); 
  94.   System.out.println(term); 
  95. catch (IOException e) { 
  96.   // TODO Auto-generated catch block 
  97.   e.printStackTrace(); 

打印的内容如下:

测试 2011 年 如 java 有 意见 分 岐 其中 华 人民 共 合 国 oracle 咬 死 猎人 的 狗

当我们在缺省词库中加入单词:分岐 中华人民共合国后,那么分词结果可以变为:

测试 2011 年 如 java 有 意见 分岐 其 中华人民共合国 oracle 咬 死 猎人 的 狗

由此可见,可以通过完善中文词库,得到越来越好的中文分词效果。

原文链接:http://www.cnblogs.com/yantao7589/archive/2011/08/16/2140399.html

【编辑推荐】

  1. 代号:Denali,SQL Server再出击
  2. 说说SQL Server编年史
  3. 简单说说SQL Server上的加密术
  4. 擦亮自己的眼睛去看SQL Server

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/269169.html<

(0)
运维的头像运维
上一篇2025-05-07 05:39
下一篇 2025-05-07 05:40

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注