!!! 该项目已归档，不再维护 !!!

IResearch 搜索引擎

版本 1.3

概述

IResearch 库旨在作为一个独立的索引，能够同时进行索引和逐字存储单个值。索引数据基于每个版本/修订进行处理，即现有数据版本/修订从不修改，更新/删除被视为该数据的新版本/修订。这允许在索引上进行简单的多线程读/写操作。索引通过多线程"写入器"接口公开其数据处理功能，将每个文档抽象视为要索引和/或存储的字段集合。索引通过"读取器"接口公开其数据检索功能，该接口从索引中返回与指定查询匹配的记录。查询本身是使用 API 中可用的查询构建块直接构建的查询树。查询基础设施提供了按一个或多个排名/评分实现对结果集进行排序的功能。排名/评分实现逻辑基于插件，并在运行时根据需要延迟初始化，允许添加自定义排名/评分逻辑，而无需重新编译 IResearch 库。

高层架构和主要概念

索引

索引由多个独立部分组成，称为段和索引元数据。索引元数据存储有关特定索引版本/修订的活动索引段的信息。每个索引段本身就是一个索引，由以下逻辑组件组成：

段元数据
字段元数据
词典
倒排列表
已删除文档列表
存储值

通过基于插件的格式进行对组件的读/写访问。索引可能包含使用不同格式创建的段。

文档

数据库记录表示为称为文档的抽象。文档实际上是索引/存储字段的集合。为了进行处理，每个字段应至少满足 IndexedField 或 StoredField 概念。

IndexedField 概念

对于类型 T 成为 IndexedField，对于类型 T 的对象 m，必须满足以下条件：

表达式	要求	效果
`m.name()`	输出类型必须可转换为 `irs::string_ref`	值用作键名。
`m.get_tokens()`	输出类型必须可转换为 `irs::token_stream*`	令牌流用于在反向过程中填充。如果值为 `nullptr`，则将字段视为非索引。
`m.index_features()`	输出类型必须隐式转换为 `irs::IndexFeatures`	在索引期间请求评估的功能集。例如，它可能包含处理位置和频率的请求。稍后可以在查询和评分期间使用评估的信息。
`m.features()`	输出类型必须可转换为 `const irs::flags&`	与字段关联的用户提供的功能集。例如，它可能包含存储字段规范的请求。稍后可以在查询和评分期间使用存储的信息。

StoredField 概念

对于类型 T 成为 StoredField，对于类型 T 的对象 m，必须满足以下条件：

表达式	要求	效果
`m.name()`	输出类型必须可转换为 `irs::string_ref`	值用作键名。
`m.write(irs::data_output& out)`	输出类型必须可转换为 bool。	可以将任意数据写入由 `out` 表示的流，以便稍后使用 index_reader API 检索写入的值。如果没有写入任何内容但返回值为 `true`，则存储值被视为标志。如果返回值为 `false`，则即使已将某些内容写入 `out` 流，也不会存储任何内容。

数据存储抽象，可以根据实例化的实现将数据存储在内存中或文件系统中。目录至少存储当前正在使用的所有索引数据版本/修订。对于没有活动用户的目录，至少存储最后一个数据版本/修订。未使用的数据版本/修订可以通过 directory_cleaner 删除。索引的单个版本/修订由一个或多个与所述版本/修订相关联且可能共享的段组成。

写入器

每个目录一个实例的对象，用于索引数据。数据可以按每个文档的基础进行索引，或从另一个读取器获取，以实现简单的目录合并功能。每次写入器的 commit() 都会在相应的目录中产生数据视图的新版本/修订。此外，该接口还提供目录碎片整理功能，允许将多个较小的版本/修订段压缩成更大、更紧凑的表示形式。写入器通过 begin()/commit()/rollback() 方法支持两阶段事务。

读取器

索引在给定时间点的可重用/可刷新视图。多个读取器可以使用相同的目录，并且可能指向所述目录中不同版本/修订的数据。

构建先决条件

CMake

v3.10 或更高版本

Boost

v1.57.0 或更高版本（仅头文件）

设置环境

BOOST_ROOT=<path-to>/boost_1_57_0

Lz4

安装（*nix）

make
make install

或将 LZ4_ROOT 指向源目录以与 IResearch 一起构建

安装（win32）

如果使用 /MT 编译 IResearch，请在 cmake_unofficial/CMakeLists.txt 的末尾添加 add_definitions("/MTd")，因为 cmake 将忽略命令行参数 -DCMAKE_C_FLAGS=/MTd

mkdir build && cd build
cmake -DCMAKE_INSTALL_PREFIX=<install-path> -DBUILD_STATIC_LIBS=on -g "Visual studio 17" -Ax64 ../contrib/cmake_unofficial
cmake --build .
cmake --build . --target install

或将 LZ4_ROOT 指向源目录以与 IResearch 一起构建

设置环境

LZ4_ROOT=<install-path>

win32 二进制文件也可在以下位置获得：

ICU

v53或更高版本

安装（*nix系统）

./configure --disable-samples --disable-tests --enable-static --srcdir="$(pwd)" --prefix=<安装路径> --exec-prefix=<安装路径>
make install

或者将ICU_ROOT指向源代码目录，与IResearch一起构建或者通过发行版的包管理器安装：libicu<版本>

安装（win32系统）

查找链接："ICU4C Binaries"

设置环境变量

ICU_ROOT=<icu路径>

Snowball

安装（*nix系统）

自定义的CMakeLists.txt适用于snowball v2.0.0及更高版本。至少已在提交53739a805cfa6c77ff8496dc711dc1c106d987c1上测试通过

git clone https://github.com/snowballstem/snowball.git
mkdir build && cd build
cmake -DENABLE_STATIC=OFF -DNO_SHARED=OFF -g "Unix Makefiles" ..
cmake --build .
cmake -DENABLE_STATIC=OFF -DNO_SHARED=ON -g "Unix Makefiles" ..
cmake --build .

或者将SNOWBALL_ROOT指向源代码目录，与IResearch一起构建或者通过发行版的包管理器安装：libstemmer

安装（win32系统）

自定义的CMakeLists.txt基于修订版5137019d68befd633ce8b1cd48065f41e77ed43e 使用更高版本可能会导致编译失败，风险自负

git clone https://github.com/snowballstem/snowball.git
git reset --hard adc028f3ae646623bda2f99191fe9dc3287a909b
mkdir build && cd build
set PATH=%PATH%;<路径>/build/Debug
cmake -DENABLE_STATIC=OFF -DNO_SHARED=OFF -g "Visual studio 12" -Ax64 ..
cmake --build .
cmake -DENABLE_STATIC=OFF -DNO_SHARED=ON -g "Visual studio 12" -Ax64 ..
cmake --build .

或者将SNOWBALL_ROOT指向源代码目录，与IResearch一起构建

对于静态构建：

在MSVC中打开：build/snowball.sln

设置：stemmer -> Properties -> Configuration Properties -> C/C++ -> Code Generation -> Runtime Library = /MTd

BUILD -> Build Solution

设置环境变量

SNOWBALL_ROOT=<snowball路径>

VelocyPack

将VPACK_ROOT指向源代码目录，与IResearch一起构建

Google test

安装（*nix系统）

mkdir build && cd build
cmake ..
make

或者将GTEST_ROOT指向源代码目录，与IResearch一起构建

安装（win32系统）

mkdir build && cd build
cmake -g "Visual studio 12" -Ax64 -Dgtest_force_shared_crt=ON -DCMAKE_DEBUG_POSTFIX="" ..
cmake --build .
mv Debug ../lib

或者将GTEST_ROOT指向源代码目录，与IResearch一起构建

设置环境变量

GTEST_ROOT=<gtest路径>

停用词列表（用于analysis::text_analyzer）

从以下位置下载任意数量的停用词列表，例如： https://github.com/snowballstem/snowball-website/tree/master/algorithms/*/stop.txt https://code.google.com/p/stop-words/

安装

mkdir <停用词列表路径>
为每种语言（如"c"、"en"、"es"、"ru"）创建相应的子目录（目录名为2个字母，默认语言环境"c"除外，它只有1个字母）
将停用词文件（UTF-8编码，每行一个单词，第一个空白字符后的文本将被忽略）放在相应语言的目录中（每种语言支持多个文件，将被解释为单个列表）

设置环境变量

IRESEARCH_TEXT_STOPWORD_PATH=<停用词列表路径>

如果未设置IRESEARCH_TEXT_STOPWORD_PATH变量，则特定语言的停用词列表子目录将被视为位于当前工作目录中

构建

git clone <IResearch代码仓库>/iresearch.git iresearch
cd iresearch
mkdir build && cd build

生成构建文件（*nix系统）：

cmake -DCMAKE_BUILD_TYPE=[Debug|Release|Coverage] -g "Unix Makefiles" ..

如果构建过程中找不到某些库，请设置所需的环境变量 > （如BOOST_ROOT、BOOST_LIBRARYDIR、LZ4_ROOT、OPENFST_ROOT、GTEST_ROOT）

如果在发行版路径中找不到ICU或Snowball，可能需要以下额外的环境变量： > ICU_ROOT_SUFFIX=x86_64-linux-gnu SNOWBALL_ROOT_SUFFIX=x86_64-linux-gnu

生成构建文件（win32系统）：

cmake -g "Visual studio 12" -Ax64 ..

如果构建过程中找不到某些库，请设置所需的环境变量（如BOOST_ROOT、BOOST_LIBRARYDIR、LZ4_ROOT、OPENFST_ROOT、GTEST_ROOT）

为此构建设置构建标识符（可选）

echo "<构建标识符>" > BUILD_IDENTIFIER

构建库：

cmake --build .

测试库：

cmake --build . --target iresearch-check

安装库：

cmake --build . --target install

代码覆盖率：

cmake --build . --target iresearch-coverage

Pyresearch

IResearch有一个Python包装器。包装器提供对目录读取器对象的访问。使用示例请参见<src-path>/python/scripts

构建

要构建Pyresearch，需要安装SWIG生成器。在cmake命令行中添加-DUSE_PYRESEARCH=ON以生成Pyresearch目标

安装

运行pyresearch-install目标

win32安装注意事项：

某些版本的ICU安装程序似乎无法通过PATH环境变量使所有ICU dll可用，可能需要手动调整。

（*nix）安装注意事项：

使用libiresearch的共享版本。在运行Pyresearch之前安装IResearch。

外部第三方依赖

必须单独为IResearch库提供外部第三方依赖项。可以通过发行版的包管理系统安装它们，或者从源代码构建并相应地设置适当的环境变量。

停用词列表

analysis::text_analyzer使用它来过滤掉不应影响文本范围的噪音词例如，对于"en"，这些通常是"a"、"the"等... 从以下位置下载任意数量的停用词列表： https://github.com/snowballstem/snowball-website/tree/master/algorithms/*/stop.txt https://code.google.com/p/stop-words/ 或创建自定义的特定语言停用词列表将包含停用词的文件（utf8编码，每行一个单词，第一个空格后的任何文本将被忽略）放在与其语言对应的目录中（每种语言支持多个文件，并将被解释为单个列表）

查询过滤器构建块

过滤器	描述
irs::by_edit_distance	基于莱文斯坦距离过滤值
irs::by_granular_range	更快地过滤给定范围内的数值，可指定开放/封闭范围
irs::by_ngram_similarity	基于NGram模型过滤值
irs::by_phrase	对值进行词位敏感的过滤，可跳过选定位置
irs::by_prefix	过滤精确值前缀
irs::by_range	过滤给定范围内的值，可指定开放/封闭范围
irs::by_same_position	对精确值进行词位插入顺序敏感的过滤
irs::by_term	过滤精确值
irs::by_terms	通过指定的词条集合过滤精确值
irs::by_wildcard	基于匹配模式过滤值
irs::ByNestedFilter	基于其子文档的匹配模式过滤文档
irs::And	多个过滤器的布尔合取，适当影响文档排名/得分
irs::Or	多个过滤器的布尔析取，适当影响文档排名/得分（包括"最小匹配"功能）
irs::Not	多个过滤器的布尔否定