Loving Coding & Visual Design
关于中文分词和Mysql的中文全文搜索
最近对Mysql的中文全文搜索做了一下了解,熟悉Mysql的都知道Match Againt进行全文(FullText)搜索的巨大优势,但是Mysql对中文这些多字节字符的支持还远远不够。也就是说现在MYsql还不支持中文的全文搜索,中文全文搜索的主要问题在于如何把中文进行快速有效的拆分,所以需要我们自己开发一些辅助工具,才能帮助我们用中文享受全文搜索的福利。
目前国内主要搜索引擎,专业从事中文分词的公司都有自己的中文分词技术,但是不为大众所接触。个人对中文分词有见地和成果的,目前只发现这些:
1、hightman的FTPHP全文检索应用解决方案
2、张宴(Zhang Yan)的MySQL中文全文索引插件mysqlcft
其它分词的解决思想主要是把中文转换成MYsql可以接受的英文字母形式。如把中文用base64转码或unicode的形式保存。
不知谁还知道其它一些分词技术,予以分享。真希望国内多一点关注中文分词的技术和个人,一起推动中文全文搜索时代的真正到来。
目前国内主要搜索引擎,专业从事中文分词的公司都有自己的中文分词技术,但是不为大众所接触。个人对中文分词有见地和成果的,目前只发现这些:
1、hightman的FTPHP全文检索应用解决方案
2、张宴(Zhang Yan)的MySQL中文全文索引插件mysqlcft
其它分词的解决思想主要是把中文转换成MYsql可以接受的英文字母形式。如把中文用base64转码或unicode的形式保存。
不知谁还知道其它一些分词技术,予以分享。真希望国内多一点关注中文分词的技术和个人,一起推动中文全文搜索时代的真正到来。
最 近 文 章
- 集成phpBB3论坛 - Fri, 06 Feb 2009 10:05:00 +0000
- Cube使用ShadedMaterial材质的黑三角型问题 - Tue, 03 Feb 2009 08:33:00 +0000
- Papervision3D的正反两面材质测试 - Thu, 08 Jan 2009 05:19:00 +0000
- URL Rewrite的VBscript解决办法 - Wed, 07 Jan 2009 14:29:00 +0000
- 用Google App测试更新twitter遇到的问题 - Tue, 06 Jan 2009 06:08:00 +0000
- YP.com卖了385万美元现金 - Wed, 31 Dec 2008 04:58:00 +0000
- 黑客的嵌入代码 - Mon, 29 Dec 2008 06:50:00 +0000
- 网站被墙在国外的Mysql数据库备份方案 - Fri, 26 Dec 2008 17:20:00 +0000
- 两个FLash问题 - Wed, 24 Dec 2008 08:15:00 +0000
- 试用Google App Engine - Thu, 18 Dec 2008 03:39:00 +0000