使用PostgreSQL创建高级搜索引擎

2023年 7月 19日 52.5k 0

本文我们将探索PostgreSQL中的全文搜索功能,并研究我们能够复制多少典型搜索引擎功能。

如果您想跟随并尝试示例查询(我们建议这样做,这样更有趣),可以使用来自Kaggle的Wikipedia电影情节数据集执行代码示例。要导入它,请下载CSV文件,然后创建以下表格:

CREATE TABLE movies(
  ReleaseYear int,
  Title text,
  Origin text,
  Director text,
  Casting text,
  Genre text,
  WikiPage text,
  Plot text);

并像这样导入 CSV 文件:

\COPY movies(ReleaseYear, Title, Origin, Director, Casting, Genre, WikiPage, Plot)
  FROM 'wiki_movie_plots_deduped.csv' DELIMITER ',' CSV HEADER;

该数据集包含 34,000 个电影标题,CSV 格式大小约为 81 MB。

PostgreSQL全文搜索原语

PostgreSQL的全文搜索方法提供了一些基础组件,您可以将它们组合起来创建自己的搜索引擎。这种方法非常灵活,但也意味着与Elasticsearch、Typesense或Mellisearch等搜索引擎相比,它通常感觉更低级,因为全文搜索并非主要用例。

主要的基础组件,我们将通过示例进行介绍,包括:

  • tsvector和tsquery数据类型 
  • match运算符@@,用于检查tsquery是否与tsvector匹配 
  • 用于对每个匹配进行排名的函数(ts_rank、ts_rank_cd) 
  • GIN索引类型,用于高效查询tsvector的倒排索引 

我们将从这些基础组件开始,然后深入研究更高级的主题,包括相关性提升、容错处理和分面搜索。

tsvector

tsvector数据类型存储了一个排序后的词元列表。词元是一个字符串,就像一个标记,但它已被规范化,以便生成不同形式的同一个词。例如,规范化通常包括将大写字母转换为小写字母,并经常涉及去除后缀(例如英语中的s或ing)。下面是一个示例,使用to_tsvector函数将一个英语短语解析为tsvector。

  'I''m going to make him an offer he can''t refuse. Refusing is not an option.'));
​
 lexeme | positions | weights
--------+-----------+---------
 go     | {3}       | {D}
 m      | {2}       | {D}
 make   | {5}       | {D}
 offer  | {8}       | {D}
 option | {17}      | {D}
 refus  | {12,13}   | {D,D}
(6 rows)

正如您所见,停用词(例如"I"、"to"或"an")被移除,因为它们在搜索中没有太大用处。这些词被规范化并缩减到它们的词根形式(例如"refuse"和"Refusing"都被转换为"refus")。标点符号被忽略。对于每个词,记录了它在原始短语中的位置(例如"refus"是文本中的第12和第13个词),以及权重(在后面我们将讨论它们在排名中的用途)。

在上面的示例中,词到词元的转换规则是基于英语搜索配置的。使用简单搜索配置运行相同的查询将导致包含所有单词的tsvector,这些单词与文本中找到的单词一致。

  'I''m going to make him an offer he can''t refuse. Refusing is not an option.'));
​
  lexeme  | positions | weights
----------+-----------+---------
 an       | {7,16}    | {D,D}
 can      | {10}      | {D}
 going    | {3}       | {D}
 he       | {9}       | {D}
 him      | {6}       | {D}
 i        | {1}       | {D}
 is       | {14}      | {D}
 m        | {2}       | {D}
 make     | {5}       | {D}
 not      | {15}      | {D}
 offer    | {8}       | {D}
 option   | {17}      | {D}
 refuse   | {12}      | {D}
 refusing | {13}      | {D}
 t        | {11}      | {D}
 to       | {4}       | {D}
(16 rows)

正如您所见,"refuse"和"refusing"现在生成了不同的词元。简单配置在包含标签或标记的列中非常有用。

PostgreSQL内置了一套相当不错的语言配置。您可以运行以下命令查看列表:

SELECT cfgname FROM pg_ts_config;

值得注意的是,目前没有适用于CJK(中日韩)语言的配置,如果您需要在这些语言中创建搜索查询,这一点值得记住。虽然简单配置在实践中对不支持的语言应该工作得很好,但我不确定对于CJK语言是否足够。

tsquery tsquery数据类型用于表示规范化的查询。tsquery包含搜索术语,这些术语必须是已经规范化的词元,并且可以使用AND、OR、NOT和FOLLOWED BY等运算符组合多个术语。有一些函数(如to_tsquery、plainto_tsquery和websearch_to_tsquery)可帮助将用户编写的文本转换为正确的tsquery,主要是通过对文本中出现的单词进行规范化。

为了对tsquery有所了解,让我们通过websearch_to_tsquery看几个示例:

SELECT websearch_to_tsquery('english', 'the dark vader');
 websearch_to_tsquery
----------------------
'dark' & 'vader'

这是一个逻辑上的AND,意味着文档需要同时包含“quick”和“dog”才能匹配。您也可以进行逻辑上的OR操作:

SELECT websearch_to_tsquery('english', 'quick OR dog');
 websearch_to_tsquery
----------------------
 'dark' | 'vader'

您还可以排除某些单词:

SELECT websearch_to_tsquery('english', 'dark vader -wars');
   websearch_to_tsquery
---------------------------
 'dark' & 'vader' & !'war'

此外,您还可以表示短语搜索:

SELECT websearch_to_tsquery('english', '"the dark vader son"');
     websearch_to_tsquery
------------------------------
 'dark'  'vader'  'son'

这意味着:“dark”后面是“vader”,然后是“son”。

然而,请注意,“the”一词被忽略了,因为它是根据英文搜索配置的停用词。这可能会在像这样的短语中引发问题:

SELECT websearch_to_tsquery('english', '"do or do not, there is no try"');
 websearch_to_tsquery
----------------------
 'tri'
(1 row)

糟糕,几乎整个短语都消失了。使用简单配置可以得到预期的结果:

SELECT websearch_to_tsquery('simple', '"do or do not, there is no try"');
                           websearch_to_tsquery
--------------------------------------------------------------------------
 'do'  'or'  'do'  'not'  'there'  'is'  'no'  'try'

您可以使用匹配操作符@@来检查tsquery是否与tsvector匹配。

SELECT websearch_to_tsquery('english', 'dark vader') @@
  to_tsvector('english',
    'Dark Vader is my father.');
​
?column?
----------
 t

虽然下面的例子不匹配:

SELECT websearch_to_tsquery('english', 'dark vader -father') @@
  to_tsvector('english',
    'Dark Vader is my father.');
​
?column?
----------
 f

GIN

既然我们已经看到了 tsvector 和 tsquery 的工作原理,现在让我们来看另一个关键构建块:GIN 索引类型是使其快速运行的关键。GIN 代表广义倒排索引(Generalized Inverted Index)。GIN 专门用于处理需要对复合值进行索引的情况,以及需要在索引中搜索出现在复合项内的元素值的查询。这意味着 GIN 不仅可以用于文本搜索,还可以用于 JSON 查询等其他用途。

您可以在一组列上创建 GIN 索引,或者您可以首先创建一个 tsvector 类型的列,以包括所有可搜索的列。例如:

ALTER TABLE movies ADD search tsvector GENERATED ALWAYS AS
  (to_tsvector('english', Title) || ' ' ||
   to_tsvector('english', Plot) || ' ' ||
   to_tsvector('simple', Director) || ' ' ||
   to_tsvector('simple', Genre) || ' ' ||
   to_tsvector('simple', Origin) || ' ' ||
   to_tsvector('simple', Casting)
) STORED;

然后创建实际的索引:

CREATE INDEX idx_search ON movies USING GIN(search);

现在您可以执行如下简单的搜索测试:

SELECT title FROM movies WHERE search @@ websearch_to_tsquery('english','dark vader');
 
                        title
--------------------------------------------------
 Star Wars Episode IV: A New Hope (aka Star Wars)
 Return of the Jedi
 Star Wars: Episode III – Revenge of the Sith
(3 rows)

为了看到索引的效果,您可以比较上述查询的计时情况,包括有索引和无索引的情况。在我的计算机上,使用GIN索引的时间从200毫秒左右减少到约4毫秒。

ts_rank

到目前为止,我们已经看到了如何使用ts_vector和ts_query来匹配搜索查询。然而,为了获得良好的搜索体验,重要的是首先显示最佳结果,这意味着结果需要按相关性进行排序。

直接从文档中摘录:

PostgreSQL提供了两个预定义的排名函数,它们考虑了词汇、接近度和结构信息;也就是说,它们考虑查询词在文档中出现的频率、词项在文档中的接近程度以及它们出现的文档部分的重要性。然而,"相关性"的概念是模糊的,并且非常应用程序特定。不同的应用可能需要额外的信息来进行排名,例如文档的修改时间。内置的排名函数只是示例。您可以编写自己的排名函数和/或将它们的结果与其他因素结合起来,以适应您的特定需求。

这两个提到的排名函数是ts_rank和ts_rank_cd。它们之间的区别在于,虽然它们都考虑了词项的频率,但ts_rank_cd还考虑了匹配词项之间的接近程度。

要在查询中使用它们,可以这样做:

SELECT title,
       ts_rank(search, websearch_to_tsquery('english', 'dark vader')) rank
  FROM movies
  WHERE search @@ websearch_to_tsquery('english','dark vader')
  ORDER BY rank DESC
  LIMIT 10;
 
 title                                            |    rank
--------------------------------------------------+------------
 Return of the Jedi                               | 0.21563873
 Star Wars: Episode III – Revenge of the Sith     | 0.12592985
 Star Wars Episode IV: A New Hope (aka Star Wars) | 0.05174401

关于ts_rank需要注意的一点是它需要访问每个结果的搜索列。这意味着如果WHERE条件匹配了很多行,PostgreSQL需要访问它们所有以进行排名,这可能会很慢。举个例子,上面的查询在我的计算机上返回时间为5-7毫秒。如果我修改查询以搜索dark OR vader,返回时间约为80毫秒,因为现在有1000多个匹配结果需要进行排名和排序。

相关性调整

尽管基于词频的相关性对于搜索排序来说是一个很好的默认设置,但数据通常包含比简单的频率更重要的指标。

以下是一些电影数据集的示例:

  • 标题中的匹配应该比描述或剧情中的匹配更重要。 
  • 更受欢迎的电影可以根据评级和/或收到的投票数进行推广。 
  • 考虑到用户偏好,某些类别可以得到更大的提升。例如,如果某个用户喜欢喜剧片,那么这些电影可以优先考虑。 
  • 在对搜索结果进行排名时,较新的标题可以被认为比非常老的标题更相关。 

这就是为什么专用的搜索引擎通常提供使用不同的列或字段来影响排名的方法。这里是来自Elastic、Typesense和Meilisearch的调优示例指南。

数字、日期和精确值增强器

虽然PostgreSQL没有直接支持基于其他列进行提升的功能,但排名实际上只是一个排序表达式,因此您可以向其中添加自定义信号。

例如,如果您想根据投票数量添加提升,可以执行以下操作:

SELECT title,
  ts_rank(search, websearch_to_tsquery('english', 'jedi'))
    -- numeric booster example
    + log(NumberOfVotes)*0.01
 FROM movies
 WHERE search @@ websearch_to_tsquery('english','jedi')
 ORDER BY rank DESC LIMIT 10;

对数函数用于平滑影响,而0.01因子使得提升与排名得分具有可比性。

您还可以设计更复杂的增强器,例如,只有在排名有一定数量的投票时才提升评级。为此,您可以创建以下函数:

create function numericBooster(rating numeric, votes numeric, voteThreshold numeric)
returns numeric as $$
select case when votes

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论