Remark31

https://github.com/Remark31


  • Home

  • Tags

  • Archives

信息检索导论入门(六)

Posted on 2019-02-28
写在前面的话本章的内容相对较多,核心述求就是一个,当文档返回极多时,从什么维度来对文档进行评分 文档评分、词项权重计算及向量空间模型当满足要求的文档结果极多时,就需要对文档进行评分和排序 参数化索引及域索引元数据 和文档有关的一些特定形式的数据,例如文档的作者,标题及出版日期等 域 内容可以是 ...
Read more »

信息检索导论入门(五)

Posted on 2019-02-27
写在前面的话本文是信息检索导论的第五章,压缩部分,本文主要内容如下 索引压缩 倒排记录表压缩 对于索引压缩主要是采用的将词项放在同一字符串,减少指针,再对重复的前缀进行编码 对于倒排记录表就是通过编码来压缩倒排记录表的数字 整体内容上比较晦涩,对于编码技术兴趣不大的人看起来会比较头疼,我也是很迅 ...
Read more »

信息检索导论入门(四)

Posted on 2019-02-26
写在前面的话本文是《信息检索导论入门》第四章,本文主要的内容如下: 讨论了在大文件读写下的索引构建的方法 BSBI,基于块的索引排序 SPIMI,内存式单遍扫描索引算法 分布式索引构建 动态索引构建 索引的权限构建 整体内容不算多,还比较好理解,除了mapReduce那部分,确实没玩过。 ...
Read more »

信息检索导论入门(三)

Posted on 2019-02-25
写在前面的话本文主要内容是信息检索导论的第三章部分,包含如下内容: 词典搜索 容错(单词容错与上下文容错) 这里面提到了k-gram这种方法,直观上的感觉有点像之前的短语搜索,本章的内容整体来看是比较容易理解的 词典及容错式检索本章主要介绍对查询中存在拼写错误或存在不同形式具有鲁棒性的拼写校对技 ...
Read more »

信息检索导论入门(二)

Posted on 2019-02-23
写在前面的话本文是《信息检索导论》第二部分的内容,本文主要讨论了如下内容 文档的处理 如何将文档变为可识别的字符序列 如何对文档的粒度进行划分 词条处理 基于跳表的合并优化 短语查询 二元词索引 位置信息索引 词项词典及倒排记录表文档分析及编码转换字符序列的生成字节序列转化成为线性的 ...
Read more »

信息检索导论入门(一)

Posted on 2019-02-22
写在前面的话本文是教材《信息检索导论》的第一章的内容,布尔检索,整体来说是比较简单的。 本章主要是两个部分: 倒排索引的构建 布尔查询的处理及优化 入门初步了解下,这次这个系列预计将本书的1~8章进行学习,good luck。 布尔检索信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存 ...
Read more »

推荐搜索初探(二)

Posted on 2019-01-24
写在前面的话本文是该系列的第二篇文章,详细一点的介绍了协同过滤的方法和原理,包括User CF和Item CF,并且给出了基于 Apache Mahout的一个实践。实践部分暂时还未关注,只是关注了目前的原理部分,感觉整体思路还是很清晰的,理解也不困难。 集体智慧和协同过滤集体智慧 集体智慧是指在大 ...
Read more »

区块链这两年

Posted on 2019-01-21
前言做了区块链两年多,目前算是告一段落了,无论未来是否还会再来从事区块链行业,在现目前都需要对此做一番小结,整体看来我对区块链是一个偏悲观的态度,接下来就开始阐述我这两年的感悟 综述区块链本质上是一个无主复制的分布式数据库,在容错上采取了最后写入为准的态度,这个后是逻辑上的后,例如以太坊就是tota ...
Read more »

推荐搜索初探(一)

Posted on 2019-01-21
写在前面的话极有可能未来会不再从事区块链行业了,歇息一下 本文的主要内容来自于 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/ ,可以算是对这个内容阅读后的读书记录。 推荐搜索以前一直是个用户和吐槽役的身份,吐槽 ...
Read more »

go中的观察者模式

Posted on 2019-01-02
前言在做baas时,监控等页面都是使用的websocket进行数据通信的,因此需要后端在捕获到fabric端数据变动时主动向已经连接上的websocket推送消息,这个正好就是观察者模式所做的事情。 简述观察者模式 一个目标物件管理所有相依于它的观察者物件,并且在它本身的状态改变时主动发出通知。这 ...
Read more »
1234…6

Remark

三尺微命,一介书生

52 posts
25 tags
© 2021 Remark
Powered by Hexo
|
Theme — NexT.Muse v5.1.4