搭建solr8.2全文检索系统

发布于 2022-06-09 17:37:23 | 标签:搭建详情，及问题处理 | 阅读量：2296

搭建solr全文索引

Mysql的搜索速度面对海量数据时显得有点力不从心，使用solr空间换时间，可以快速地帮助我们找到想要的数据。

前期准备

环境：centos7.8.2003(8c12g) jdk1.8.0 mysql8.0.14 solr8.2.0

资源下载移步首页资源下载专区

可以使用xshell以及xftp来方便接下来的操作，在工具文件夹里边有相关软件可以使用。

系统准备：使用centos的iso镜像在VMware安装完之后，我这边没能自动获取到IP，所以先手动修改一下配置文件。

1. 这里我只是作为内网自己使用，所以关闭防火墙并设置开机不自启，并且关闭selinux，不要填错，然后重启

一．配置jdk环境

1. 上传文件到centos上并解压

2. 配置环境变量

二．rpm安装mysql

1.上传文件

2.卸载掉centos7自带的mariadb数据库

3. 按顺序安装rpm包，一定要按照顺序，有相互依赖关系的，最后一个安装需要额外加参数。

4. 启动服务，查看临时密码并登录修改密码

5. 开启远程连接，并修改

如果要用navicat连接，那还需要修改加密方式

6. 使用navicat连接

7. 将一定内容格式的txt数据源按照一定的结构导入mysql中

7.1分析源文件内容及结构，这里是一个很大的10G的txt文件，不能直接用记事本打开，可以使用软件“EmEditor”软件打开大文件查看，也可以使用”powershell“命令截断出来查看（但是默认会是输出utf16-le的编码格式的文件，这里我的源文件的编码格式是utf8，所以有内存还是用EmEditor打开会简单直接点）

打开的内容结构是这样的

7.2在navicat页面创建相应字段的数据库表格

7.2.1表格，这里设置一个ID字段，自增，且为主键，加了主键，solr使用dataimport生成索引会更快

7.2.2引擎修改为MyISAM，对几乎只查询的，这个引擎较友好。

7.3导入txt数据到相对于字段的表格里，这里可以直接使用navicat自带的UI导入，也可以使用mysql数据库自带的LOAD DATA来导入，两者速度差距极大，超过千万，建议就用load data，不然仅仅10G的txt文件导入等半天都有可能。当然前提是cpu核心要给多，我给的是8核，4核很慢。

7.3.1使用navicat自带功能导入（建议使用7.3.2）

选中表格，右键导入向导，文本文件（*.txt）,下一步，选择utf8格式的txt数据文件，下一步（这里我的数据，是默认就好）

自己根据数据结构填写上边的，下边的“格式”一般保持默认，下一步

下一步，如果前面选择正确，这里就可以选择源栏位（有时候是f1,f2,f3之类的，与”栏位分隔符“有关），然后一直下一步，开始，就好了。

7.3.2使用mysql自带的load data导入速度快到起飞。

先上传源数据txt到centos上边（依旧使用xftp上传）

登录mysql，直接执行load data会报错，还需要修改一下mysql的配置文件，结尾处添加一行，然后重启mysql，再登录mysql，执行load data语句，然后就是漫长的等待了，文件大，时间长。

貌似使用固态会更快，mysql8默认开启log的，可以考虑关闭log文件，减少I/O压力，应该也有用。

关闭log，查看log功能是否有开启，登录mysql，执行命令”show variables like 'log_bin';“

可以看到log日志是打开的，修改”/etc/my.cnf“,在末尾添加”disable-log-bin“，重启mysqld服务即可生效。

开始导入：

load data infile '/usr/local/solr/kuzi-data/weibo5e.txt' replace into table kuzi.weibo lines terminated by ' ' ignore 1 lines (@C1,@C2) set phone=@C1,uid=@C2;