Loving Coding & Visual Design

关于中文分词和Mysql的中文全文搜索

最近对Mysql的中文全文搜索做了一下了解,熟悉Mysql的都知道Match Againt进行全文(FullText)搜索的巨大优势,但是Mysql对中文这些多字节字符的支持还远远不够。也就是说现在MYsql还不支持中文的全文搜索,中文全文搜索的主要问题在于如何把中文进行快速有效的拆分,所以需要我们自己开发一些辅助工具,才能帮助我们用中文享受全文搜索的福利。

目前国内主要搜索引擎,专业从事中文分词的公司都有自己的中文分词技术,但是不为大众所接触。个人对中文分词有见地和成果的,目前只发现这些:

1、hightmanFTPHP全文检索应用解决方案
2、张宴(Zhang Yan)的MySQL中文全文索引插件mysqlcft

其它分词的解决思想主要是把中文转换成MYsql可以接受的英文字母形式。如把中文用base64转码或unicode的形式保存。

不知谁还知道其它一些分词技术,予以分享。真希望国内多一点关注中文分词的技术和个人,一起推动中文全文搜索时代的真正到来。



下一页


最 近 文 章

  1. 集成phpBB3论坛 - Fri, 06 Feb 2009 10:05:00 +0000
  2. Cube使用ShadedMaterial材质的黑三角型问题 - Tue, 03 Feb 2009 08:33:00 +0000
  3. Papervision3D的正反两面材质测试 - Thu, 08 Jan 2009 05:19:00 +0000
  4. URL Rewrite的VBscript解决办法 - Wed, 07 Jan 2009 14:29:00 +0000
  5. 用Google App测试更新twitter遇到的问题 - Tue, 06 Jan 2009 06:08:00 +0000
  6. YP.com卖了385万美元现金 - Wed, 31 Dec 2008 04:58:00 +0000
  7. 黑客的嵌入代码 - Mon, 29 Dec 2008 06:50:00 +0000
  8. 网站被墙在国外的Mysql数据库备份方案 - Fri, 26 Dec 2008 17:20:00 +0000
  9. 两个FLash问题 - Wed, 24 Dec 2008 08:15:00 +0000
  10. 试用Google App Engine - Thu, 18 Dec 2008 03:39:00 +0000