如何编写MySQL全文索引插件

文章由LinuxBoy分享于2019-03-30 03:03:18热评（223）

如何编写MySQL全文索引插件

1.简介

全文索引插件用于对MYISAM的全文检索特性进行扩展。通过全文检索，我们可以对文档、图片或者视频等丰富的数据类型进行分词，建立索引，以便进行快速的检索。

目前MySQL仅在MYISAM存储引擎里支持全文检索，而对于innodb，则要在6.0以后的版本中才会实现。

但目前全文索引也有着如下的限制：

1. 只支持MyISAM

2. 不支持中文

3. 如果支持在一个单独表中使用多个字符集，则所有fulltext索引的列必须使用完全一样的字符集和库

4. MATCH()列列表必须同该表中一些FULLTEXT索引定义中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE

5. 对AGAINST() 的参数必须是一个常数字符串。

那么Full Text Plugin在这其中扮演什么样的角色呢。MYISAM本身自带的分词程序会将列里面的数据进行分词存储到全文索引里，同时也会使用分词来处理查询中出现的字符串；Full Text Plugin可以完全接管该功能。

例如，我们可以通过Plugin实现对多媒体数据的分词检索，可以使用自己的算法进行分词，甚至可以改变全文检索的语法。

2. 如何编写Full Text Plugin

插件的编写主要包括： init、deinit以及parse程序；每次执行sql之前会调用一次init()，执行完成后会调用deinit函数。Parse()函数在执行SQL的过程中进行语法分析

1)声明插件

结构体st_mysql_ftparser用于声明一个full text插件

struct st_mysql_ftparser

{

intinterface_version;

int(*parse)(MYSQL_FTPARSER_PARAM *param);

int(*init)(MYSQL_FTPARSER_PARAM *param);

int(*deinit)(MYSQL_FTPARSER_PARAM *param);

};

字段	类型	描述
interface_version	int	版本号
parse	int (parse)(MYSQL_FTPARSER_PARAM param);	语法分析程序
init	int (init)(MYSQL_FTPARSER_PARAM param);	初始化函数，函数指针
deinit	int (deinit)(MYSQL_FTPARSER_PARAM param);	清理函数，函数指针

可以看到，这三个函数公用一种参数类型：MYSQL_FTPARSER_PARAM，这个结构体由MySQL来初始化，但我们同样可以修改其函数指针，以使用自定义的函数，结构体如下：

字段	类型	描述
mysql_parse	int (mysql_parse)(struct st_mysql_ftparser_param , char *doc, int doc_len)	默认指向mysql内建的全文分词函数。
mysql_add_word	int (mysql_add_word)(struct st_mysql_ftparser_param , char word, int word_len, MYSQL_FTPARSER_BOOLEAN_INFO )	用于对每个分解的单词进行处理；通常会把这些单词加到一颗树或列表里。并在结束后插入/更新/删除全文索引里的记录
ftparser_state	void *	我们可以在该指针分配额外的内存，用于在不同的API接口间传递
mysql_ftparam	void *	由MySQL内部使用，将信息传递给mysql_parse和mysql_add_word，编写plugin时无需修改
cs	struct charset_info_st *	文档的字符集
doc	char *	需要被解析的文档，例如，我们可以填写一个url，那么在语法分析程序里。我们可以读取到Url对应的文件，再进行分析
length	int	文档的长度，这是因为doc可能并不是以\0结尾的，我们在写plugin时需要注意这一点
flags	int	目前仅有一个选项：MYSQL_FTFLAGS_NEED_COPY。该选项用于告诉mysql_add_word需要一份单词的拷贝；内建的mysql_parse()无需指定该Flag，这是因为其使用doc的指针，而doc在离开函数后也是有效的
mode	enum enum_ftparser_mode	操作的类型，主要包括以下几种： MYSQL_FTPARSER_SIMPLE_MODE ：解析程序仅返回需要的单词，剔除停词、过滤词 MYSQL_FTPARSER_WITH_STOPWORDS ：用于布尔查询的单词匹配，这种情况下需要考虑所有的单词，包括停词 MYSQL_FTPARSER_FULL_BOOLEAN_ INFO ：用于解析一个包含布尔操作符的布尔查询字符串；这种情况下，我们需要设置mysql_add_word的参数——MYSQL_FTPARSER_BOOLEAN_INFO

当mode被设置为MYSQL_FTPARSER_FULL_BOOLEAN_ INFO时。我们需要为函数mysql_add_word设置其最后一个参数，我们再看该函数的原型：

int (*mysql_add_word)(structst_mysql_ftparser_param *,

char *word, int word_len,

MYSQL_FTPARSER_BOOLEAN_INFO *);

最后一个参数结构体为MYSQL_FTPARSER_BOOLEAN_INFO，也就是结构体st_mysql_ftparser_boolean_info，如下所示：

字段	类型	描述
type	enum enum_ft_token_type	用于标示token的类型，有如下几种： FT_TOKEN_EOF ：无需设置 FT_TOKEN_WORD ：表示普通的单词 FT_TOKEN_STOPWORD：停词，建立索引时会被忽略 FT_TOKEN_LEFT_PAREN ：表示一个子表达式开始 FT_TOKEN_RIGHT_PAREN ：表示一个子表达式结束
yesno	int	用于支持布尔操作： >0 单词必须要匹配，对应 + <0 不允许匹配，对应 - =0 可能匹配，会增加关联度
weight_adjust	int	关联词的重要性、 >0，对应于>操作符 <0, 对应于<操作符
wasign	char	单词的重要性：非0 表示噪音单词，会减少关联度，对应于操作符 ~
trunc	char	如果为非0，则单词被认为是一个前缀，所有以此为前缀的都会被匹配，对应的操作符为 *
prev	char	忽略
quot	char*	对应于””双引号操作符

推荐文章：

如何编写MySQL全文索引插件