solr 8.9.0系列(一)基本配置使用 solr的使用
mhr18 2024-12-18 15:13 19 浏览 0 评论
最近一个项目需要使用全文检索,研究了一下,遇到很多坑,特此详细记录一下,该系列包括基于jetty、tomcat、weblogic下的安装,文本内容、word/pdf/excel/html的索引配置使用,后续会将使用springboot的前台展现项目进行开源供大家学习
1、下载solr
下载地址:https://solr.apache.org/downloads.html
其它版本下载地址:http://archive.apache.org/dist/lucene/solr/
2、运行
解压后进入solr-8.9.0\bin目录,在cmd中运行solr start,访问http://localhost:8983/出现solr管理界面即安装成功。
3、创建核心
1、在bin目录下执行solr create -c meta_db,然后在solr-8.9.0\server\solr目录下会建立meta_db目录,目录下自动生成以下文件
4、导入jar包
将solr-8.9.0\dist下2个jar包
和odbc数据源包拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下
2、也可在core的solrconfig.xml里配置
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
5、中文分词器安装配置
https://github.com/magese/ik-analyzer-solr
拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下
将resources目录下的5个配置文件放入solr服务的solr-8.9.0\server\solr-webapp\webapp\WEB-INF\classes目录下;
将下面代码加到F:\solr-8.9.0\server\solr\meat_db\conf\managed-schema里
<!-- ik分词器 -->
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
说明:当 useSmart=”false”,分词粒度较小,分词后个数多;当 useSmart=”true”,分词粒度大,分词后个数据少。
选择Analysis 输入要搜索的中文 选择FieldType为text_ik 可以发现分词成功
6、配置oracle数据表文件
找到要配置的solr-8.9.0\server\solr\meat_db\conf文件夹中,新建db-data-config.xml
进入文件中,配置要导入的数据库和表sql语句
<dataConfig>
<dataSource name="source1" type="JdbcDataSource" driver="oracle.jdbc.driver.OracleDriver"
url="jdbc:oracle:thin:@127.0.0.1:1521/orcl" user="test" password="test"/>
<!-- sql 编写 -->
<!--
entity属性:
name:实体名称
dataSource:数据源名称
pk:实体主键,增量导入时使用
query:全量同步SQL
deltaQuery:增量导入时查询需要导入的数据的主键
deltaImportQuery:增量导入查询SQL,根据deltaQuery查询出的id查询数据
deletedPkQuery:增量导入时会删除solr中根据该SQL查询出来的id对应的数据
增量同步原理:首先保障数据库表里面有个记录时间的字段,每次添加或者修改后记录时间;solr每次同步数后会记录同步时间:last_index_time,
然后SQL语句里面就可以添加查询条件 :last_modify_date >= '${dih.last_index_time}',表里面更新时间大于solr的更新时间,说明数据被更新了或者是新增的数据;
last_modify_date:这个是表里面记录更新、插入时间的字段;
-->
<!-- 以下为自定义配置-->
<document>
<entity name="share" transformer="ClobTransformer" dataSource="source1" pk="RECID"
query="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.docpubtime,cnd.docreltime,cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10"
deltaImportQuery="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.docpubtime,cnd.docreltime, cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.DOCSTATUS=10 and cnd.recid = '${dih.delta.RECID}'"
deltaQuery="select recid from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10 and doc.OPERTIME > to_date('${dih.last_index_time}','yyyy-mm-dd hh24:mi:ss')"
deletedPkQuery="select recid from chnldocinfo where docstatus!=10">
<field column="RECID" name="recid" />
<field column="CHNLID" name="chnlid" />
<field column="DOCID" name="docid" />
<field column="MODAL" name="modal" />
<field column="DOCSTATUS" name="docstatus" />
<field column="DOCPUBURL" name="docpuburl" />
<field column="DOCPUBTIME" name="docpubtime" />
<field column="DOCRELTIME" name="docreltime" />
<field column="SITEID" name="siteid" />
<field column="DOCCHANNEL" name="docchannel" />
<field column="DOCTITLE" name="doctitle" />
<field column="DOCCONTENT" name="doccontent" clob="true"/>
<field column="OPERTIME" name="opertime" />
</entity>
</document>
</dataConfig>
注意大写字段的地方,测试了好久才发现大小写对oracle增量发布有影响
配置solrconfig.xml导入的Handler
<!-- 以下为自定义配置-->
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">db-data-config.xml</str>
</lst>
</requestHandler>
配置映射文件,进入db-data-config.xml同目录,找到managed-schema
<!-- 定义文档字段
name:字段名称;type:分词类型;indexed:是否进行索引;stored:是否进行储存,需要进行显示一般需要储存;
required:字段是否可为空;multiValued:是否有多个值
-->
<field name="recid" type="string" uninvertible="false" indexed="true" required="true" stored="true"/>
<field name="chnlid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="modal" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docstatus" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docpuburl" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docpubtime" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docreltime" type="strings" stored="true" required="false" multiValued="false"/>
<field name="siteid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docchannel" type="strings" stored="true" required="false" multiValued="false"/>
<field name="doctitle" type="text_ik" stored="true" required="false" multiValued="false"/>
<field name="doccontent" type="text_ik" stored="true" required="false" multiValued="false"/>
<field name="opertime" type="strings" stored="true" required="false" multiValued="false"/>
<!-- 索引复制,联合索引 -->
<field name="keyword" type="text_ik" indexed="true" stored="true" omitNorms="true" multiValued="true"/>
<copyField source="doctitle" dest="keyword" maxChars="30000"/>
<copyField source="doccontent" dest="keyword" maxChars="30000"/>
配置完成,进入solr管理界面查看:
选择要配置的core,点击dataimport,选择entity,execute,刷新,导入完成,完事!
7、浏览器地址
在浏览器直接输入网站 : http://localhost:8983/solr/meta_db/dataimport?command=delta-import^&clean=false^&commit=true
SOLR在浏览器中输入命令:
1、全导入:
http://localhost:8983/solr/meta_db/dataimport?command=full-import&commit=true
2、增量导入:
http://localhost:8983/solr/meta_db/dataimport?command=delta-import&clean=false&commit=true
3、查看导入状态
http://localhost:8983/solr/meta_db/dataimport?command=status
浏览器地址可用作定时任务执行调用的地址
8、开启基本身份验证
新建配置文件security.json,放到目录solr-8.9.0\server\solr下,就是和solr.xml同级
{
"authentication": 【1】
{
"blockUnknown": true, 【2】
"class": "solr.BasicAuthPlugin",
"credentials": 【3】
{
"solr": "IV0EHq1OnNrj6gvRCwvFwTrZ1+z1oBbnQdiVC3otuq0= Ndd7LKvVBAaZIF0QAVi1ekCfAJXr1GGfLtRUXhgrF8c="
}
},
"authorization":
{
"class": "solr.RuleBasedAuthorizationPlugin",
"permissions": [ 【4】
{
"name": "security-edit",
"role": "admin"
}],
"user-role": 【5】
{
"solr": "admin"
}
}
}
在这个文件中定义了几个东西,以下的解释对应于上述的序号:
启用基本身份验证和基于规则的授权插件。 参数 "blockUnknown": true 表示不允许未经身份验证的请求通过。 已定义了一个名为 "solr" 的用户,其中有密码 "SolrRocks"。 "admin" 角色已定义,并且具有编辑安全设置的权限。 "solr" 用户已被定义为 "admin" 角色。 这里配置了用户名密码是:solr SolrRocks
10、开启IP访问限制
solr8.9.0使用的是jetty容器,需要在solr-8.9.0\server\etc\jetty.xml里进行配置
找到节点
在下面添加白名单IP配置
<!-- Restricting IP addresses for Jetty and Solr -->
<Item>
<New id="IPAccessHandler" class="org.eclipse.jetty.server.handler.IPAccessHandler">
<Set name="white">
<Array type="String">
<Item>127.0.0.1</Item>
</Array>
</Set>
<Set name="whiteListByPath">false</Set>
<Set name="handler">
<Ref refid="Contexts"/>
</Set>
</New>
</Item>
<!-- Restricting IP addresses for Jetty and Solr -->
相关推荐
- AlmaLinux 9.6发布:升级工具、初步支持IBM Power虚拟化技术
-
IT之家5月21日消息,科技媒体linuxiac昨日(5月20日)发布博文,报道称代号为SageMargay的AlmaLinux9.6发行版已上线,距上一版本9.5发...
- Java最新学习路线,系统全面,零基础适用
-
首先,我个人比较推崇的学习方法是:先学java前段,也就是HTML,css,js,因为学习java以后肯定是往javaee方向发展的,学习完前端,在学习后端很多东西比计较容易理解!其中J2SE是关键...
- 深入理解数据库事务(数据库事务处理的理解)
-
Transaction作为关系型数据库的核心组成,在数据安全方面有着非常重要的作用,本文会一步步解析事务的核心特性,以获得对事务更深的理解。什么是事务数据库几乎是所有系统的核心模块,它将数据有条理地保...
- IvorySQL 4.4 发布(1044mysql)
-
IvorySQL4.4已于2025年3月10日正式发布。新版本全面支持PostgreSQL17.4,新增多项新功能,并修复了已知问题。增强功能PostgreSQL17.3增强功...
- Oracle 与 Google Cloud 携手大幅扩展多云服务
-
据DCD4月10日报道,甲骨文(Oracle)与谷歌云(GoogleCloud)深化合作,全力扩展多云产品。双方计划为OracleDatabaseGoogleCloud解决方案新增11...
- Izzi 利用 Oracle 云提高计费效率和客户体验
-
据thefastmode网5月2日报道,墨西哥电信运营商Izzi宣布采用Oracle云基础设施(OCI),对其业务支持系统(BSS)进行现代化改造增强客户体验,已经成功完成。通过在OCI上运行...
- 好莱坞群星也有明星脸?硅谷科技名人本尊分身比一比
-
假如有部电影齐聚了众科技名人角色,如同许多好莱坞大牌卡司所共同主演的《瞒天过海》(Ocean’sEleven)那样,演出彼此在商场上竞逐、或共同对抗外来竞争捍卫硅谷的故事,更在剧中有不少对手戏,会不...
- 澳大利亚Find My iPhone被黑 多人被黑客锁机
-
FindMyiPhone本来是一个用于协助找回被盗手机的好工具,但是现在,澳洲的苹果用户发现他们的FindMyiPhone变成了黑客的帮凶。昨天,这名自称为OlegPliss的黑客使用Fin...
- 服务器密码错误被锁定怎么解决(服务器密码失效)
-
#服务器密码错误被锁定解决方案当服务器因多次密码错误导致账户被锁定时,可以按照以下步骤进行排查和解决:##一、确认锁定状态###1.检查账户锁定状态(Linux)```bash#查看账户锁定...
- 凌晨突发的数据库重大故障,我排查了一整天……
-
春节期间过得太热闹了,上班确实没啥状态,这不刚发生的一个重大性能故障,排查了整整一天,后面的领导都站成了一排,本次把故障发生的详细分析过程分享给大家!本次故障发生在凌晨,核心应用卡顿非常严重,Orac...
- Oracle锁表紧急处理!3招快速解锁方案
-
开篇:突发故障现场凌晨1点,某电商系统突然卡顿,数千笔支付订单无法完成——数据库出现死锁,技术团队紧急响应...(遇到类似情况的,欢迎在评论区分享经历)一、问题重现:死锁是如何产生的?典型场景:问题根...
- JetBrains DataGrip Mac中文破解版V2025.1下载安装教程
-
DataGripforMac是由JetBrains开发的数据库集成开发环境(IDE),专为数据库管理员和开发人员设计。它支持多种数据库(如MySQL、PostgreSQL、Oracle、SQ...
- 电脑装安卓系统,安卓X86版5.1 RC1下载
-
日前,谷歌放出了Android-x865.1的第一个候选版本Android-x865.1RC1,该版本基于Android5.1.1r24Lollipop开发,更新包括大量x86(32位)代...
- 来来来!一文告诉你Eclipse的正确安装使用姿势,你都清楚吗?
-
前言本学习笔记是有关如何设置Eclipse的详细说明。即使你天天在使用它,但是,相信我,或许你并不足够了解它。安装Java运行时环境Eclipse是Java应用程序,因此设置Eclipse的第一步是安...
- 分享收藏的 oracle 11.2.0.4各平台的下载地址
-
概述oracle11.2.0.4是目前生产环境用的比较多的版本,同时也是很稳定的一个版本。目前官网上已经找不到下载链接了,有粉丝在头条里要求分享一下下载地址。一、各平台下载地址1.1Linuxx...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- oracle位图索引 (63)
- oracle批量插入数据 (62)
- oracle事务隔离级别 (53)
- oracle 空为0 (50)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)