搜索,推荐,广告系统架构及算法技术资料大合集吐血整理——2020年终分享

算法学习资料: AI_Tutorial

架构、搜索、推荐、广告系统优质资源

你还在为学习算法摸不着头脑么还在为技术调研各种Google么I的牛b吹不上去紧了,这里就是你的2020女朋友~。本项目会持续关注AI落地的一些优质技术资料。大家也可以去网站投稿。
算法学习资料: AI_Tutorial 记得Star哦~!

后端架构、AI架构、搜索系统、推荐系统、广告系统技术资料整理。这篇文章意图是收集市面上质量不错的后端架构、AI架构、搜索、 推荐、 广告引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(AIQ 、infoQ、Stackoverflow、github 等、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技术博客等)、知名技术牛人公众号博客等。
以下整理的内容大致根据来源进行分类。@AIQ-人工智能

github地址:https://github.com/cbamls/full_stack_coder

个人视角有限,谢谢。


开源相关

Lucene

  • Lucene 官网

  • Lucene 7.6.0源码

  • Lucene Wiki

  • 索引结构 -Lucene6.6.0

Solr

  • Solr 官网

  • Solr Wiki

Elastic

  • Elastic 官网

  • Elastic Blog

  • Elastic Formus

  • Elasticsearch: 权威指南 – 中文版

  • Elastic 中文社区

    LucidWorks

  • LucidWorks

  • LucidWorks Blog

中文分词

  • ansj 分词

  • HanLP 分词

  • ES-Analysis-IK

大公司

阿里

  • 天猫推荐算法团队的那些事儿 – 20140401 – infoQ
    本文以访谈的方式呈现,对搜索和推荐算法进行了简单的比较,提到了 AB 测试和离线测试,主要对推荐算法团队的工作方式、工作考评、任务分配、招聘等进行了介绍。

  • 天猫 11.11:搜索引擎实时秒级更新 – 20141111 – infoQ
    文章简单介绍了阿里搜索引擎架构,提到了以下内容:1)为提高数据实时性(库存、价格等),去掉应用层和业务层的缓存,重点提升引擎层的服务能力。2)排序链,根据业务场景定制排序链。3)sku 搜索,搜索结果和属性导航联动(标类产品)。

  • 阿里搜索离线技术团队负责人谈 Hadoop:阿里离线平台、YARN 和 iStream

  • 基于 Apache Flink 的实时计算引擎 Blink 在阿里搜索中的应用 – 20170216 – infoQ

  • 阿里开源深度学习框架 XDL,面向广告、推荐、搜索场景 – 20181128 – AIQ

  • 阿里巴巴搜索引擎平台 Ha3 揭秘 – 201811 – AIQ

阿里搜索事业部技术团队
阿里集团搜索、推荐、图像技术的大本营,大数据时代的创新主场。

  • 阿里搜索事业部技术团队

  • OpenSearch:轻松构建大数据搜索服务 – 20160222

  • 搜索双链路实时计算体系 @双 11 实战 – 20160111

阿里中间件团队博客
2012 年期间,阿里中间件博客记录了 20 多篇 Lucene、Solr 相关博文,主要记录了一些在项目开发过程中遇到的问题,以及部分源码解读。内容丰富、实用,但不是很系统。

  • 阿里中间件团队博客

  • Solr 调优参考 – 20120521

  • Solr Lucene 优劣势分析 – 20120626

  • SolrQuery 性能压测参考 – 20120731

  • NumericField NumericRangeQuery 原理分析 – 20120731

  • Solr schema 编写指导 – 20120731

  • 关于搜索挖掘所想 – 20120731

  • SolrQuery 挖掘 – 单维度聚合分析 – 20120920

  • 我感受到的排序机制参考 – 20120920

  • 垂直搜索新问题 – 20120920

  • Solr 平台化搜索实战必知场景 – 20120921

  • Solr Schema 配置小细节大问题 – 20121015

  • Solr DisjunctionMax 注解 – 20121015

  • Sql Support within Solr- 类 Sql 的 solr 搜索实现 (1) – 20121015

  • Sql Support within Solr- 类 Sql 的 solr 搜索实现 (2) – 20121015

  • 关于 TrieField 的全面认识、理解、运用 – 20121015

  • Solr Facet 引发思考 on the road – 20121029

  • 查询问题 —queryparse 深入理解 – 20121029

  • TermRangeQuery 源码解析 – 20121106

  • Solr 之缓存篇 – 20121106

  • 搜索的测试话题 – 20121113

  • 关于搜索夜话 —- 作为阶段序列的告别 – 20121113

  • solr 长文本搜索问题 – 20121210

  • SolrCore2.9.1 源码分析备忘 – 20121210

百度

  • 百度万亿量级数据库 Tera 架构应用、设计与实践全攻略 – 20170526 – infoQ

京东

  • 京东 618:揭秘大促销背后的个性化推荐 – 20150618 – infoQ

  • 京东 11.11:商品搜索系统架构设计 – 20151111 – infoQ

  • 京东 618:机器学习与商品数据挖掘和知识抽取 – 20170618 – infoQ

美团点评

美团点评技术团队博客
在国内互联网公司中,个人认为“美团点评技术团队博客”是最持之以恒的,而且非常干货。

  • 美团点评技术团队

  • 美团 O2O 排序解决方案——线下篇 – 20151207

  • 美团O2O排序解决方案——线上篇 – 2015-11-16 17:00

  • 美团点评旅游搜索召回策略的演进 – 20170616 – AIQ

携程

  • 携程技术中心

去哪儿

  • 去哪儿网机票搜索系统的高并发架构设计 20170421 – AIQ

搜狗

  • 搜狗搜索广告检索系统 – 弹性架构演进之路 – 20160111 – infoQ

  • 深度学习在搜狗无线搜索广告中的应用 – 20160808 – infoQ

  • 以搜狗为例,谈语音输入如何影响你的生活 – 20161208 – infoQ

一号店

  • 1 号店 11.11:分布式搜索引擎的架构实践 – 20151112 – infoQ

  • 1 号店 11.11:机器排序学习在电商搜索中的实战 – 20161111 – AIQ

  • 机器学习在 1 号店商品匹配中的实践 – 20170506 – 携程技术中心

待分类

国内

  • 当当 11.11:促销系统与交易系统的重构实践 – 20151113 – infoQ

  • 苏宁易购 11.11:商品详情系统架构设计 – 20151227 – infoQ

  • 达观数据 点击模型:提升算法精度的利器 – 20160315 – infoQ

  • 达观数据 一个可供参考的搜索引擎排序架构实践案例 – 20160830 – infoQ

  • 达观数据 “搜你所想” 之用户搜索意图识别 – 20170608 – AIQ

  • 链家网 数据驱动在搜索优化与推荐策略中的实践 – 20170406 – infoQ

  • 深度学习在 Airbnb 大规模搜索排名上的实战经验 – 20181118 – AIQ

  • 51 信用卡的个性化推荐体系 – 2018 – AIQ

  • 苏宁 11.11:搜索引擎 Solr 在苏宁易购商品评价系统中的应用 – 20181105 – AIQ
    国外

  • Twitter 实时检索 6700 亿条推文,细谈 Twitter 搜索引擎的演进历程 – 20160330 – infoQ

  • Yelp 是如何用数据驱动搜索过滤器的- 20151209 – infoQ

开发应用

理论基础

  • 我爱自然语言处理 推荐

  • 漫话中文自动分词和语义识别

源码解读

  • 刘超觉先 详细分析了 Lucene3.x 的源码,推荐。

  • Anatomy of an Elasticsearch Cluster: Part I

  • Anatomy of an Elasticsearch Cluster: Part II

  • Anatomy of an Elasticsearch Cluster: Part III

常见问题

  • Stackoverflow – Lucene

  • Stackoverflow – Solr

  • Stackoverflow – Elastic

其他

  • 对话 Kibana 之父:如果需要,你应该自己动手编写工具 – 20170111 – infoQ

  • 配置高性能 Elasticsearch 集群的 9 个小贴士 – 20170104 – infoQ

  • 基于 ElasticStack 的数据探索与分析 – 20161018 – infoQ

  • 使用 Akka、Kafka 和 ElasticSearch 等构建分析引擎 – 20160825 – infoQ

  • 万亿级日志与行为数据存储查询技术剖析 – 20170222 – infoQ

  • 谷歌的自然语言部门是啥样的- 20160118 – infoQ

  • 通过 Baratine 将 Lucene 库暴露为微服务 – 20160225 – infoQ


人工智能领域文集

  1. 毕业 10 年才懂,解决问题的能力原来这么重要
  2. 跨境电商 Etsy 如何使用交互行为类型进行可解释推荐
  3. 机器学习模型的可解释性
  4. 个性化海报在爱奇艺视频推荐场景中的实践
  5. 华为招聘
  6. 华为人才招聘
  7. Query 理解和语义召回在知乎搜索中的应用
  8. 推荐系统技术演进趋势:从召回到排序再到重排
  9. 程序员必知必会的零拷贝技术
  10. 推荐系统的发展与简单回顾
  11. 沟通的重要工具——乔哈里视窗
  12. NLP 技术在微博 feed 流中的应用
  13. 机器学习 – 一文理解 GBDT 的原理 -20171001
  14. LR+FTRL 算法原理以及工程化实现
  15. 推荐场景中召回模型的演化过程
  16. 读《影响力》这本书
  17. 系统重构的道与术
  18. CTO 被裁,离职前给组了的高级开发们 8 个建议。
  19. 记录:tf.saved_model 模块的简单使用(TensorFlow 模型存储与恢复)
  20. 淘宝如何拥抱短视频时代频推荐算法实战
  21. 解密淘宝推荐实战,打造 “比你还懂你” 的个性化 APP
  22. 风控特征—时间滑窗统计特征体系
  23. 解密商业化广告投放平台技术架构
  24. 深入理解 AQS 之 Condition 源码
  25. IJCAI 2019 | 为推荐系统生成高质量的文本解释:基于互注意力机制的多任务学习模型
  26. Hi, xiaolongnk
  27. Learning to rank 基本算法小结
  28. 知识结构化在阿里小蜜中的应用
  29. 万字长文!推荐系统算法岗校招面试经验 & 学习心得
  30. 标签平滑 & 深度学习:Google Brain 解释了为什么标签平滑有用以及什么时候使用它 (SOTA tips)/li>
  31. 经验:一个秒杀系统的设计思考
  32. 视频:美图个性化 push AI 探索之路
  33. 优酷 DSP 广告投放系统架构实践
  34. 浅谈微视推荐系统中的特征工程
  35. 知识图谱的自动构建
  36. 美团点评效果广告实验配置平台的设计与实现
  37. 腾讯信息流内容理解技术实践
  38. 深度 |58 商业流量排序策略优化实践
  39. 美团点评 Kubernetes 集群管理实践
  40. 张一鸣:如何应对公司变大之后的管理挑战
  41. 如何提升「会议效率」
  42. 【有赞】数据资产,赞之治理
  43. 搜索引擎中的 Web 数据挖掘
  44. 几十亿数据查询 3 秒返回,ES 性能优化实战!
  45. 基于多视角学习和个性化注意力机制的新闻推荐
  46. Walrus- 一个轻量级 olap 查询框架
  47. 微服务高可用利器——Hystrix 熔断降级原理 & 实践总结
  48. 【推荐实践】微博在线机器学习和深度学习实践
  49. 马蜂窝推荐排序算法模型是如何实现快速迭代的
  50. 在线学习在爱奇艺信息流推荐业务中的探索与实践
  51. 【58 同城】如何从 0 到 1 构建个性化推荐/li>
  52. 机器学习在 58 二手车估价系统实践
  53. 萌新想请教一下 特征选择 的问题
  54. 实时计算引擎在贝壳的应用与实践
  55. 今日头条在消息服务平台和容灾体系建设方面的实践与思考
  56. 推荐系统中模型训练及使用流程的标准化
  57. 知识图谱与语义分析技术介绍(附前沿论文解读)
  58. 网络图模型知识点综述
  59. 360 展示广告召回系统的演进
  60. Tensorflow 的 checkpoint 教程
  61. 陈曦:性能与稳定并存 Elasticsearch 调优实践
  62. 3000 台服务器不宕机,微博广告系统全景运维大法
  63. 由 Finalizer 和 SocksSocketImpl 引起的 Fullgc 问题盘点
  64. 爱奇艺效果广告的个性化探索与实践
  65. 深度学习技术在美图个性化推荐的应用实践
  66. UC 信息流推荐模型在多目标和模型优化方面的进展
  67. Facebook 面向个性化推荐系统的深度学习推荐模型
  68. 美团配送交付时间轻量级预估实践
  69. 58 招聘推荐排序算法实战与探索
  70. 阿里如何实现秒级百万 TPS索离线大数据平台架构解读
  71. 会向业务“砍需求”的技术同学,该具备哪 6 点能力/li>
  72. UC 国际信息流推荐中的多语言内容理解
  73. 10 年 +,阿里沉淀出怎样的搜索引擎/li>
  74. Hi, 2019_nickname
  75. 老大难的 GC 原理及调优,这下全说清楚了
  76. 以 YouTube 论文学习如何在推荐场景应用强化学习
  77. 深度度量学习中的损失函数
  78. UC 信息流视频标签识别技术
  79. 常用学习算法
  80. 阿里妈妈:品牌广告中的 NLP 算法实践
  81. OCPC 广告算法在凤凰新媒体的实践探索
  82. 降低软件复杂性的一般原则和方法
  83. 基于 Elastic Stack 的海量日志分析平台实践
  84. 支付系统高可用架构设计实战,可用性高达 99.999!
  85. 推荐系统应该如何保障推荐的多样性/li>
  86. 浅谈 UC 国际信息流推荐
  87. 我在亚马逊学到的三样东西,为我的机器学习职业之路做好了准备
  88. 关于数据驱动的重新思考
  89. 头条,美团,滴滴,京东及其它公司面试经验分享!
  90. CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解
  91. 模型评估指标 AUC 和 ROC,这是我看到的最透彻的讲解
  92. GitHub 标星 8k+,最后还有什么想问的么面试官的灵魂 50 问!
  93. Andrew Ng(吴恩达) 关于机器学习职业生涯以及阅读论文的一些建议
  94. A/B 测试中我们都会犯的十个常见错误
  95. AI 在爱奇艺视频广告中的探索
  96. 快看漫画个性化推荐探索与实践
  97. 微博广告策略工程架构体系演进
  98. 请问 example oracle 和后面那个红框的分布是什么意思/li>
  99. 构建可解释的推荐系统
  100. 解读:滴滴“猜你去哪儿”功能的算法实现
  101. 推荐系统走向下一阶段最重要的三个问题
  102. 电商推荐那点事
  103. 风控建模流程:以京东群体感知项目为例
  104. 每天超 50 亿推广流量、3 亿商品展现,阿里妈妈的推荐技术有多牛/li>
  105. 聊聊 Linux IO 栈
  106. 阿里妈妈深度树检索技术(TDM)及应用框架的探索实践
  107. 推荐系统工程难题:如何做好深度学习 CTR 模型线上 Serving
  108. 360 搜索的百亿级网页搜索引擎架构实现
  109. FSICFR 或者 CFRM 算法训练后如何应用于实际的游戏中/li>
  110. 京东电商推荐系统实践
  111. < 机器学习实战 高清中英 源代码 > 分享
  112. 分布式锁用 Redis 还是 Zookeeper/li>
  113. InnoDB 事务与分布式事务中一些关键问题
  114. hello, 初次见面请多关注
  115. 【兼职】泽山贤教育招聘人工智能线上讲师,时薪 200-300 元
  116. ESearch: 58 搜索内核设计与实践—实时索引篇
  117. 两万字深度介绍分布式系统原理,一文入魂
  118. 推荐技术随谈
  119. 这是我读过写得最好的【秒杀系统架构】分析与实战!
  120. 如果这篇文章说不清 epoll 的本质,那就过来掐死我吧!
  121. 最完整的 Markdown 基础教程
  122. 番外篇:Lucene 索引流程与倒排索引实现
  123. Lucene 倒排索引原理探秘 (2)
  124. Lucene 倒排索引原理探秘 (1)
  125. 推荐系统:石器与青铜时代
  126. 快手 HBase 在千亿级用户特征数据分析中的应用与实践
  127. 数据老是错误,不知道为什么
  128. 怎么写代码呢
  129. 学习代码写作怎么写
  130. 学习数据代码
  131. 深度学习在 360 搜索广告 NLP 任务中的应用
  132. 消息中间件—RocketMQ 消息存储(二)
  133. 消息中间件—RocketMQ 消息存储(一)
  134. 消息中间件—RocketMQ 消息消费(三)(消息消费重试)
  135. 消息中间件—RocketMQ 消息消费(二)(push 模式实现)
  136. 消息中间件—RocketMQ 消息消费(一)
  137. 消息中间件—RocketMQ 消息发送
  138. 消息中间件—RocketMQ 的 RPC 通信(二)
  139. 消息中间件—RocketMQ 的 RPC 通信(一)
  140. (毕业真实版本)《马来西亚双威大学毕业证书 -|SUNWAY 毕业一模一样证书
  141. (毕业真实版本)《新加坡国立大学毕业证书 -|NUS 毕业一模一样证书
  142. 阿里零售通智能导购推荐技术实践
  143. “看一看”推荐模型揭秘!微信团队提出实时 Look-alike 算法,解决推荐系统多样性问题
  144. 关于机器学习归一化
  145. 网易新闻推荐:深度学习排序系统及模型
  146. 一镜到底:FM 们的原理及在贝壳搜索的实践
  147. 淘宝从几百到千万级并发的十四次架构演进之路!
  148. 分布式追踪系统概述及主流开源系统对比
  149. 系统架构系列(四):业务架构实战下篇
  150. 系统架构系列 (三):业务架构实战上篇
  151. 系统架构系列 (二):应对这一概念的方法
  152. 系统架构系列(一):如何用公式定义该概念/li>
  153. 写给开发者的谷歌技术面试终极通关指南
  154. 流式数据处理在百度数据工厂的应用与实践
  155. 一文读懂深度学习:从神经元到 BERT
  156. 基于内容的推荐算法
  157. Embedding 技术在民宿推荐中的应用
  158. XLNet : 运行机制及和 Bert 的异同比较
  159. 深度学习在 Airbnb 中的探索与应用
  160. 【贝壳智搜】标签:月老手中那一根根红线
  161. Xavier 论文疑惑(论文标题:Understanding the difficulty of training deep feedforward neural networks)
  162. TCP 报文格式高清图
  163. 从 Word Embedding 到 Bert 模型—自然语言处理中的预训练技术发展史
  164. Bert 时代的创新(应用篇):Bert 在 NLP 各领域的应用进展
  165. Netflix 推荐系统模型的快速线上评估方法——Interleaving
  166. 【真实生产案例】消息中间件如何处理消费失败的消息/li>
  167. YC 中国创始人陆奇:人工智能时代,芯片和底层软件基本都要重做
  168. 从 MySQL 高可用架构看高可用架构设计
  169. abtest- 数据分析 – 假设检验基础
  170. 程序员面试最常见问题 TOP 48
  171. abtest 那些事儿(下)—数据跟踪和效果评估
  172. list1 与 list2 求交集的方法总结!
  173. 当你打开天猫的那一刻,推荐系统做了哪些工作/li>
  174. 高并发架构消息队列面试题解析
  175. Embedding 在深度推荐系统中的 3 大应用方向
  176. 使用 ElasticSearch 的 44 条建议
  177. Elasticsearch 技术分析(七): Elasticsearch 的性能优化
  178. 适合程序员用的笔记本电脑
  179. 怎样写网站优化方案
  180. 马蜂窝 ABTest 多层分流系统的设计与实现
  181. ES 查询性能调优实践,亿级数据查询毫秒级返回
  182. 小米移动搜索中的 AI 技术
  183. LSTM 原理与实践,原来如此简单
  184. 基于 “ 滴滴 KDD 2018 论文:基于强化学习技术的智能派单模型 ” 再演绎
  185. 阿里妈妈:电商预估模型的发展与挑战
  186. Attention in RNN
  187. 详解 Transformer (Attention Is All You Need)
  188. SVM 优化出来支持向量点的不等式约束不等于 1 是为什么/li>
  189. 机器学习:K 折交叉验证的问题
  190. 滴滴基于 ElasticSearch 的一站式搜索中台实践
  191. 快手万亿级别 Kafka 集群应用实践与技术演进之路
  192. 微软 AB/Testing EXP 实验管理平台
  193. 揭开 YouTube 深度推荐系统模型 Serving 之谜
  194. 深度学习中不得不学的 Graph Embedding 方法
  195. 谷歌、阿里、微软等 10 大深度学习 CTR 模型最全演化图谱【推荐、广告、搜索领域】
  196. FTRL 公式推导
  197. 个性化推荐技术
  198. 分类模型与排序模型在推荐系统中的异同分析
  199. 阿里巴巴复杂搜索系统的可靠性优化之路
  200. 从 FFM 到 DeepFFM,推荐排序模型到底哪家强/li>
  201. 在 faster-RCNN 中,最后一层输出的 bbox_pred 是什么
  202. 有赞百亿级日志系统架构设计
  203. 打造工业级推荐系统(一):推荐算法工程师的成长之道
  204. 面试官:如果让你设计一个消息中间件,如何将其网络通信性能优化 10 倍以上石杉的架构笔记】
  205. 来源:研发之道

    声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月1日
下一篇 2020年1月1日

相关推荐