注册
环信即时通讯云

环信即时通讯云

单聊、群聊、聊天室...
环信开发文档

环信开发文档

Demo体验

Demo体验

场景Demo,开箱即用
RTE开发者社区

RTE开发者社区

汇聚音视频领域技术干货,分享行业资讯
技术讨论区

技术讨论区

技术交流、答疑
资源下载

资源下载

收集了海量宝藏开发资源
iOS Library

iOS Library

不需要辛辛苦苦的去找轮子, 这里都有
Android Library

Android Library

不需要辛辛苦苦的去找轮子, 这里都有

孩子是双眼皮还是单眼皮?来自贝叶斯算法的推测

问题描述 最近家里有了宝宝,孩子他妈很希望孩子早日长出双眼皮,并因为他至今是单眼皮而有些担心。虽然我小时候也是单眼皮,后来才显现出双眼皮,但不排除孩子长大后仍是单眼皮的概率。为此我感到需要计算一下孩子是单眼皮基因的概率。 我家的情况是这样,宝爸宝妈、爷爷奶...
继续阅读 »

问题描述


最近家里有了宝宝,孩子他妈很希望孩子早日长出双眼皮,并因为他至今是单眼皮而有些担心。虽然我小时候也是单眼皮,后来才显现出双眼皮,但不排除孩子长大后仍是单眼皮的概率。为此我感到需要计算一下孩子是单眼皮基因的概率。


我家的情况是这样,宝爸宝妈、爷爷奶奶、姥姥姥爷都是双眼皮。


查了一下资料,双眼皮是显性基因,因此除非宝爸宝妈都是杂合性基因且都贡献单眼皮片段,孩子才能是单眼皮。


这里做一下假设,全部人群中有3/4是双眼皮,双眼皮人群中纯合基因有1/2。即



其中S表示双眼皮,D表示单眼皮,C表示纯合基因,Z表示杂合基因。


祖父辈人基因类型的后验概率


父母双方的情况是对等的,因此只挑选其中一方进行计算。以父亲为例,爷爷奶奶可能的基因类型组合有:CC,CZ和ZZ。先验概率为:



已知父亲是双眼皮,则爷爷奶奶是CC组合的后验概率为:



类似地可以算出



进行归一化后得到:



这里之所以要进行归一化,是因为在计算过程中对概念进行了替换,我们利用了爷爷奶奶都是双眼皮的信息。


父母基因类型的概率


仍然以父亲为对象进行计算,其是纯合基因的概率为:



是杂合基因的概率为:



剩下1/20的概率是表现为单眼皮的概率,需要排除掉。也就是说,在观察到爷爷奶奶父亲都是双眼皮的情况下,父亲是纯合基因的概率为






































,是杂合基因的概率为







































孩子双眼皮的概率


综合以上,孩子是双眼皮的概率为:



可见这个概率是很高的。


压力测试


在之前的计算里面,由于没有一般人群的统计数据,我们假设全部人群中有3/4是双眼皮,双眼皮人群中纯合基因有1/2。这里我们换一组数据,假设全部人群中有1/4是双眼皮,双眼皮人群中纯合基因有1/4,看看这样会对结果造成多大影响。


这种情况下



父母任意一方是纯合基因的概率为







































,是杂合基因的概率为









































最终得到孩子是双眼皮的概率是



可见概率依然非常高。“六个钱包”都是双眼皮是一个非常可靠的信号。


作者:Kelly1024
来源:mdnice.com/writing/f71210a4999f4bd2a674f9bead00551c
收起阅读 »

原来,我们的代码就是这样被污染的...

最近 CR 了这样一段代码: 我们团队的变量命名规范是小写驼峰,但是这里可以看到,一个 http api 接口请求的工具函数的入参却是下划线。这是一个内部项目,前后端都是我们团队开发的。这个项目的代码随处都能看到这样的不符合规范的痕迹,而且屡禁不止。我不禁在...
继续阅读 »

最近 CR 了这样一段代码:


插图1.png


我们团队的变量命名规范是小写驼峰,但是这里可以看到,一个 http api 接口请求的工具函数的入参却是下划线。这是一个内部项目,前后端都是我们团队开发的。这个项目的代码随处都能看到这样的不符合规范的痕迹,而且屡禁不止。我不禁在想,为什么会这样?


先探究一下这个问题的表面原因,让我们从底层开始:



  • DB 表结构按照团队规范,字段名是下划线分隔的

  • node 服务定义 entity 的时候,直接复用 DB 表结构字段名

  • service 模块在查询 DB 之后,直接回吐结果,所以 service 类返回的数据结构的变量名也是下划线的

  • node api 的 controller 通过调用 service 模块的函数,获取数据处理之后,也直接回吐下划线的变量名的数据结构

  • 因为 node api 的接口协议是下划线的,所以 web 页面请求 http api 的出入参也是下划线的,如上图所示

  • 因为 http api 返回的结果是下划线的,然后页面逻辑直接使用,最后,页面逻辑也出现了大量下划线


这是一段挺长的链路,只要我们在后面的任意一个环节处理一下变量名的转换,都能避免这个问题,但是并没有。


插图2.png


为什么会这样?稍微探究一下这里的深层原因,也是挺有意思的。


首先,项目启动时没有严格把控代码质量。这里的原因有很多,比如项目工期紧、主要以完成功能为主、内部项目不需要要求这么严格、项目启动时是直接 copy 另外一个项目的,那个项目也是这样写的等等。但是,这些统统都是借口!我是要负主要责任的。


其次,没有开发同学想过要去优化这里的代码。参与这个项目的同学并不是不知道如何去解决这个问题,但就是没人想要去解决这个问题。大家更多的是选择“入乡随俗”,别人这么写,我也这么写吧。


最后,Code Review 没有严抓。问题都是越早处理成本越小,如果在早期我们就开始严抓 Code Review 的话,说不定就能及时改善这个问题了。


这个案例是一个非常真实的破窗效应案例,这里面有不少地方值得我们深思的。


首先,它会污染整个项目。如果我们在项目的一开始就没有把控好代码质量,那我们的项目代码很快就会被污染。最开始的开发同学可能知道历史原因,自然不会觉得不自然。后续加入的维护者看到项目代码是这样子的,就会误以为这个项目的代码规范就是这样子的,于是也“入乡随俗”,最终整个项目的代码就被污染,破烂不堪。


其次,它会污染依赖的项目。比如这里就是 node 项目先被污染,对外提供的 api 也受到污染,然后调用这些 api 的 web 项目也被污染了。很多时候,api 的接口协议都是由后端开发来定,如果碰到一些缺乏经验的后端开发,前端同学会收到一些很奇怪的接口协议,比如字段命名规范不统一,冗余字段,设计不合理等等,由于前端的话语权较弱的缘故,很可能会被动接受,如果处理不当,前端项目的代码就会受到污染了。


最后,它会污染整个开发团队!初创的开发同学就不说了;后续的维护者看到代码是这样子的,不是错误认知这个项目的代码规范,就是错误认知团队的代码规范;更为糟糕的是,阅读项目源码的其他同学也会受到污染:“哦,原来别人也是这样写代码的”。噩梦由此而生...


插图3.png


破窗就像病毒一样,快速并疯狂地污染整个项目代码,然后传染给开发团队,最后扩散到其他团队。这个病毒传染的范围很广,速度很快,一不留神,整个团队就会沦陷。那我们应该怎样医治呢? 主要有 3 个方向:


首先,增强个人免疫力。形成个人的编码风格,然后坚持它,这是治本的良方。良好的编码风格是不会损坏个人的编码效率的,反而会有助于提升个人的研发效率,主要体现在以下几个方面:



  • 减少低级错误

  • 提升代码的可阅读性,提升代码的可维护性,从而提升团队协作效率

  • 形成“肌肉记忆”,提升编码效率

  • 避免返工,主要体现在糟糕的设计问题和编码风格冲突问题


其次,做好防护,避免传播。比如我们这个简单的案例,在整个链路的任何一个环节,都能轻松处理这个问题,这样就不会传播到后面的环节了。很多人碰到一些历史破窗代码时,可能会觉得修复这些破窗成本太大了,那就不要去修复,只需要保证自己写的新代码是良好的,也是一个不错的方案。已经中毒的人我们没有能力医治的时候,起码,我们可以认真做好防护,避免病毒进一步传播!


最后,对症下药医治。只有千日做贼,那有千日防贼,我们总是需要想办法医治这个病,而治病的药方就是重构。这里就不深入讲了,重构也是个大学问,只需要知道,越早重构,成本越低,比如在 Code Review 的时候就要严抓这些问题,并跟踪修复情况。


不知道,你的“免疫力”修炼得怎么样了?



【讨论问题】


除了这里的案例,还有很多其他类型的破窗,你都碰到了哪些?


欢迎在评论区分享你的想法,一起讨论。


作者:潜龙在渊灬
来源:juejin.cn/post/7252888158828642360
收起阅读 »

为什么大部分人做不了架构师?

腾小云导读成为架构师,是许多程序员的职业梦想。然而其中只有少数有着丰厚编码积累、超强自驱力和独到思维的程序员才能最终成为架构师。其实,日常工作中小到某个功能的开发,大到整个业务系统的设计,都可以看到架构设计的影子。《从0开始学架构》一书是颇受程序员欢迎的架构设...
继续阅读 »

腾小云导读

成为架构师,是许多程序员的职业梦想。然而其中只有少数有着丰厚编码积累、超强自驱力和独到思维的程序员才能最终成为架构师。其实,日常工作中小到某个功能的开发,大到整个业务系统的设计,都可以看到架构设计的影子。《从0开始学架构》一书是颇受程序员欢迎的架构设计入门教程。接下来本文作者将提取该书籍之精髓,结合自身经验分享架构设计常见方法以及高可用、高性能、可扩散架构模式的实现思路,将架构设计思维“为我所用”、提升日常研效。希望对你有帮助~

目录

1 基本概念与设计方法

2 高性能架构模式

2.1 存储高性能

2.2 计算高性能

3 高可用架构模式

3.1 理论方法

3.2 存储高可用

3.3 计算高可用

4 可扩展架构模式

5 总结

之前本栏目《腾讯专家10年沉淀:后海量时代的架构设计》、《工作十年,在腾讯沉淀的高可用系统架构设计经验》两篇文章中,两位腾讯的开发者结合自身经历,分享了架构设计的实践经验。而本期,本栏目特邀腾讯云对《从0开始学架构》一书提取精髓,并结合亲身经验做分享。

01、基本概念与设计方法

在讲解架构思想之前,我们先统一介绍一下基本概念的含义,避免每个人对系统、框架、架构这些名词的理解不一致导致的误解。下面是《从0开始学架构》作者对每个名词的定义。其作用域仅限本文范畴,不用纠结其在其他上下文中的意义。

系统:系统泛指由一群有关联的个体组成,根据某种规则运作,能完成个别元件不能单独完成的工作的群体。 子系统:子系统也是由一群有关联的个体所组成的系统,多半会是更大系统中的一部分。模块:从业务逻辑的角度来拆分系统后,得到的单元就是“模块”。划分模块的主要目的是职责分离。组件:从物理部署的角度来拆分系统后,得到的单元就是“组件”。划分组件的主要目的是单元复用。框架:是一整套开发规范,是提供基础功能的产品。架构:关注的是结构,是某一套开发规范下的具体落地方案,包括各个模块之间的组合关系以及它们协同起来完成功能的运作规则。
由以上定义可见,所谓架构,是为了解决软件系统的某个复杂度带来的具体问题,将模块和组件以某种方式有机组合,基于某个具体的框架实现后的一种落地方案。

而讨论架构时,往往只讨论到系统与子系统这个顶层的架构。

可见,要进行架构选型,首先应该知道自己要解决的业务和系统复杂点在哪里,是作为秒杀系统有瞬间高并发,还是作为金融科技系统有极高的数据一致性和可用性要求等。

一般来说,系统的复杂度来源有以下几个方面:

高性能

如果业务的访问频率或实时性要求较高,则会对系统提出高性能的要求。

如果是单机系统,需要利用多进程、多线程技术。

如果是集群系统,则还涉及任务拆分、分配与调度,多机器状态管理,机器间通信,当单机性能达到瓶颈后,即使继续加机器也无法继续提升性能,还是要针对单个子任务进行性能提升。

高可用

如果业务的可用性要求较高,也会带来高可用方面的复杂度。高可用又分为计算高可用和存储高可用。

针对计算高可用,可以采用主备(冷备、温备、热备)、多主的方式来冗余计算能力,但会增加成本、可维护性方面的复杂度。

针对存储高可用,同样是增加机器来冗余,但这也会带来多机器导致的数据不一致问题,如遇到延迟、中断、故障等情况。难点在于怎么减少数据不一致对业务的影响。

既然主要解决思路是增加机器来做冗余,那么就涉及到了状态决策的问题。即如果判断当前主机的状态是正常还是异常,以及异常了要如何采取行动(比如切换哪台做主机)。

对主机状态的判断,多采用机器信息采集或请求响应情况分析等手段,但又会产生采集信息这一条通信链路本身是否正常的问题,下文会具体展开讨论。事实上,状态决策本质上不可能做到完全正确。

而对于决策方式,有以下几种方式:

独裁式:存在一个独立的决策主体来收集信息并决定主机,这样的策略不会混乱,但这个主体本身存在单点问题。 协商式:两台备机通过事先指定的规则来协商决策出主机,规则虽然简单方便,但是如果两台备机之间的协商链路中断了,决策起来就会很困难,比如有网络延迟且机器未故障、网络中断且机器未故障、网络中断其机器已故障,多种情况需要处理。民主式:如果有多台备机,可以使用选举算法来投票出主机,比如 Paxos 就是一种选举算法,这种算法大多数都采取多数取胜的策略,算法本身较为复杂,且如果像协商式一样出现连接中断,就会脑裂,不同部分会各自决策出不同结果,需要规避。

可扩展性

众所周知在互联网行业只有变化才是永远不变的,而开发一个系统基本都不是一蹴而就的,那应该如何为系统的未来可能性进行设计来保持可扩展性呢?

这里首先要明确的一个观点就是,在做系统设计时,既不可能完全不考虑可扩展性,也不可能每个设计点都考虑可扩展性,前者很明显,后者则是为了避免舍本逐末,为了扩展而扩展,实际上可能会为不存在的预测花费过多的精力。

那么怎么考虑系统的未来可能性从而做出相应的可扩展性设计呢?这里作者给出了一个方法:只预测两年内可能的变化,不要试图预测五年乃至十年的变化。因为对于变化快的行业来说,预测两年已经足够远了,再多就可能计划赶不上变化。而对变化慢的行业,则预测的意义更是不大。

要应对变化,主要是将变与不变分隔开来。

这里可以针对业务,提炼变化层和稳定层,通过变化层将变化隔离。比如通过一个 DAO 服务来对接各种变化的存储载体,但是上层稳定的逻辑不用知晓当前采用何种存储,只需按照固定的接口访问 DAO 即可获取数据。

也可以将一些实现细节剥离开来,提炼出抽象层,仅在实现层去封装变化。比如面对运营上经常变化的业务规则,可以提炼出一个规则引擎来实现核心的抽象逻辑,而具体的规则实现则可以按需增加。

如果是面对一个旧系统的维护,接到了新的重复性需求,而旧系统并不支持较好的可扩展性,这时是否需要花费时间精力去重构呢?作者也提出了《重构》一书中提到的原则:事不过三,三则重构。

简而言之,不要一开始就考虑复杂的做法去满足可扩展性,而是等到第三次遇到类似的实现时再来重构,重构的时候采取上述说的隔离或者封装的方案。

这一原则对新系统开发也是适用的。总而言之就是,不要为难以预测的未来去过度设计,为明确的未来保留适量的可扩展性即可。

低成本

上面说的高性能、高可用都需要增加机器,带来的是成本的增加,而很多时候研发的预算是有限的。换句话说,低成本往往并不是架构设计的首要目标,而是设计架构时的约束限制。

那如何在有限的成本下满足复杂性要求呢?往往只有“创新”才能达到低成本的目标。举几个例子:

NoSQL 的出现是为解决关系型数据库应对高并发的问题。 全文搜索引擎的出现是为解决数据库 like 搜索效率的问题。Hadoop 的出现是为解决文件系统无法应对海量数据存储与计算的问题。Facebook 的 HipHop PHP 和 HHVM 的出现是为解决 PHP 运行低效问题。新浪微博引入 SSD Cache 做 L2 缓存是为解决 Redis 高成本、容量小、穿透 DB 的问题。Linkedin 引入 Kafka 是为解决海量事件问题。
上述案例都是为了在不显著增加成本的前提下,实现系统的目标。

这里还要说明的是,创造新技术的复杂度本身就是很高的,因此一般中小公司基本都是靠引入现有的成熟新技术来达到低成本的目标;而大公司才更有可能自己去创造新的技术来达到低成本的目标,因为大公司才有足够的资源、技术和时间去创造新技术。

安全

安全是一个研发人员很熟悉的目标,从整体来说,安全包含两方面:功能安全和架构安全。

功能安全是为了“防小偷”,即避免系统因安全漏洞而被窃取数据,如 SQL 注入。常见的安全漏洞已经有很多框架支持,所以更建议利用现有框架的安全能力,来避免重复开发,也避免因自身考虑不够全面而遗漏。在此基础上,仍需持续攻防来完善自身的安全。

架构安全是为了“防强盗”,即避免系统被暴力攻击导致系统故障,比如 DDOS 攻击。这里一方面只能通过防火墙集运营商或云服务商的大带宽和流量清洗的能力进行防范,另一方面也需要做好攻击发现与干预、恢复的能力。

规模

架构师在宣讲时往往会先说自己任职和设计过的大型公司的架构,这是因为当系统的规模达到一定程度后,复杂度会发生质的变化,即所谓量变引起质变。

这个量,体现在访问量、功能数量及数据量上。

访问量映射到对高性能的要求。功能数量需要视具体业务会带来不同的复杂度。而数据量带来的收集、加工、存储、分析方面的挑战,现有的方案基本都是基于 Google 的三篇大数据论文的理论:

Google File System 是大数据文件存储的技术理论。Google Bigtable 是列式数据存储的技术理论。Google MapReduce 是大数据运算的技术理论。
经过上面的分析可以看到,复杂度来源很多,想要一一应对,似乎会得到一个复杂无比的架构,但对于架构设计来说,其实刚开始设计时越简单越好,只要能解决问题,就可以从简单开始再慢慢去演化,对应的是下面三条原则:

合适原则:不需要一开始就挑选业界领先的架构,它也许优秀,但可能不那么适合自己,比如有很多目前用不到的能力或者大大超出诉求从而增加很多成本。其实更需要考虑的是合理地将资源整合在一起发挥出最大功效,并能够快速落地。简单原则:有时候为了显示出自身的能力,往往会在一开始就将系统设计得非常复杂,复杂可能代表着先进,但更可能代表着“问题”,组件越多,就越可能出故障,越可能影响关联着的组件,定位问题也更加困难。其实只要能够解决诉求即可。演化原则:不要妄想一步到位,没有人可以准确预测未来所有发展,软件不像建筑,变化才是主题。架构的设计应该先满足业务需求,适当的预留扩展性,然后在未来的业务发展中再不断地迭代,保留有限的设计,修复缺陷,改正错误,去除无用部分。这也是重构、重写的价值所在。

即使是 QQ、淘宝这种如今已经非常复杂的系统,刚开始时也只是一个简单的系统,甚至淘宝都是直接买来的系统,随着业务发展也只是先加服务器、引入一些组件解决性能问题,直到达到瓶颈才去重构重写,重新在新的复杂度要求下设计新的架构。

明确了设计原则后,当面对一个具体的业务,我们可以按照如下步骤进行架构设计:

识别复杂度:无论是新设计一个系统还是接手一个混乱的系统,第一步都是先将主要的复杂度问题列出来,然后根据业务、技术、团队等综合情况进行排序,优先解决当前面临的最主要的复杂度问题。复杂度的主要来源上文已经说过,可以按照经验或者排查法进行分析。方案对比:先看看业界是否有类似的业务,了解他们是怎么解决问题的,然后提出3~5个备选方案,不要只考虑做一个最优秀的方案,一个人的认知范围常常是有限的,逼自己多思考几个方案可以有效规避因为思维狭隘导致的局限性,当然也不要过多,不用给出非常详细的方案,太消耗精力。备选方案的差异要比较明显,才有扩宽思路和对比的价值。设计详细方案:当多个方案对比得出最终选择后,就可以对目标方案进行详细的设计,关键细节需要比较深入,如果方案本身很复杂,也可以采取分步骤、分阶段、分系统的实现方式来降低实现复杂度。当方案非常庞大的时候,可以汇集一个团队的智慧和经验来共同设计,防止因架构师的思维盲区导致问题。

02、高性能架构模式

2.1 存储高性能

互联网业务大多是数据密集型的业务,其对性能的压力也常常来自于海量用户对数据的高频读写压力上。因此解决高性能问题,首先要解决数据读写的存储高性能问题。

读写分离

在大多数业务中,用户查询和修改数据的频率是不同的,甚至是差别很大的,大部分情况下都是读多写少的,因此可以将对数据的读和写操作分开对待,对压力更大的读操作提供额外的机器分担压力,这就是读写分离。

读写分离的基本实现是搭建数据库的主从集群,根据需要提供一主一从或一主多从。

注意是主从不是主备,从和备的差别在于从机是要干活的。

通常在读多写少的情况下,主机负责读写操作,从机只负责读操作,负责帮主机分担读操作的压力。而数据会通过复制机制(如全同步、半同步、异步)同步到从机,每台服务器都有所有业务数据。

既然有数据的同步,就一定存在复制延迟导致的从机数据不一致问题,针对这个问题有几种常见的解法,如:

写操作后同一用户一段时间内的读操作都发给主机,避免数据还没同步到从机,但这个逻辑容易遗漏。读从机失败后再读一次主机,该方法只能解决新数据未同步的问题,无法解决旧数据修改的问题(不会读取失败),且二次读取主机会给主机带来负担,容易被针对性攻击。关键读写操作全部走主机,从机仅负责非关键链路的读,该方法是基于保障关键业务的思路。
除了数据同步的问题之外,只要涉及主从机同时支持业务访问的,就一定需要制定请求分配的机制。上面说的几个问题解法也涉及了一些分配机制的细节。具体到分配机制的实现来说,有两种思路:

程序代码封装:实现简单,可对业务定制化,但每个语言都要自己实现一次,且很难做到同步修改,因此适合小团队。中间件封装:独立出一套系统管理读写的分配,对业务透明,兼容 SQL 协议,业务服务器就无需做额外修改适配。需要支持多语言、完整的 SQL 语法,涉及很多细节,容易出 BUG,且本身是个单点,需要特别保障性能和可用性,因此适合大公司。
分库分表

除了高频访问的压力,当数据量大了以后,也会带来数据库存储方面的压力。此时就需要考虑分库分表的问题。分库分表既可以缓解访问的压力,也可以分散存储的压力。

先说分库,所谓分库,就是指业务按照功能、模块、领域等不同,将数据分散存储到不同的数据库实例中。

比如原本是一个 MySQL 数据库实例,在库中按照不同业务建了多张表,大体可以归类为 A、B 两个领域的数据。现在新建一个库,将原库中 A 领域的数据迁移到新的库中存储,还是按需建表,而 B 领域的数据继续留在原库中。

分库一方面可以缓解访问和存储的压力,另一方面也可以增加抗风险能力,当一个库出问题后,另一个库中的数据并不会受到影响,而且还能分开管理权限。

但分库也会带来一些问题:原本同一个库中的不同表可以方便地进行联表查询,分库后则会变得很复杂。由于数据在不同的库中,当要操作两个库中的数据时,无法使用事务操作,一致性也变得更难以保障。而且当增加备库来保障可用性的时候,成本是成倍增加的。

基于以上问题,初创的业务并不建议在一开始就做这种拆分,会增加很多开发时的成本和复杂度,拖慢业务的节奏。

再说分表。所谓分表,就是将原本存储在一张表里的数据,按照不同的维度,拆分成多张表来存储。

按照诉求与业务的特性不同,可以采用垂直分表或水平分表的方式。

垂直分表相当于垂直地给原表切了一刀,把不同的字段拆分到不同的子表中,这样拆分后,原本访问一张表可以获取的所有字段,现在则需要访问不同的表获取。

垂直分表适合将表中某些不常用又占了大量空间的列(字段)拆分出去,可以提升访问常用字段的性能。

但相应的,当真的需要的字段处于不同表中时,或者要新增记录存储所有字段数据时,要操作的表变多了。

水平分表相当于横着给原表切了一刀,那么原表中的记录会被分散存储到不同的子表中,但是每张子表的字段都是全部字段。

水平分表适合表的量级很大以至影响访问性能的场景,何时该拆分并没有绝对的指标,一般记录数超过千万时就需要警觉了。

不同于垂直分表依然能访问到所有记录,水平分表后无法再在一张表中访问所有数据了,因此很多查询操作会受到影响,比如 join 操作就需要多次查询后合并结果,count 操作也需要计算多表的结果后相加,如果经常用到 count 的总数,可以额外维护一个总数表去更新,但也会带来数据一致性的问题。

值得特别提出的是范围查询,原本的一张表可以通过范围查询到的数据,分表后也需要多次查询后合并数据,如果是业务经常用到的范围查询,那建议干脆就按照这种方式来分表,这也是分表的路由方式之一:范围路由。

所谓路由方式是指:分表后当新插入记录时,如何判断该往哪张表插入。常用的插入方式有以下三种:

范围路由:按照时间范围、ID 范围或者其他业务常用范围字段路由。这种方式在扩充新的表时比较方便,直接加表给新范围的数据插入即可,但是数量和冷热分布可能是不均匀的。 Hash 路由:根据 Hash 运算来路由新记录插入的表,这种方式需要提前就规划好分多少张表,才能决定 Hash 运算方式。但表数量其实很难预估,导致未来需要扩充新表时很麻烦,但数据在不同表中的分布是比较均匀的。配置路由:新增一个路由表来记录数据 id 和表 id 的映射,按照自定义的方式随时修改映射规则,设计简单,扩充新表也很方便。但每次操作表都需要额外操作一次路由表,其本身也成为了单点瓶颈

无论是垂直分表还是水平分表,单表切分为多表后,新的表即使在同一个数据库服务器中,也可能带来可观的性能提升,如果性能能够满足业务要求,可以不拆分到多台数据库服务器,毕竟分库也会引入很多复杂性的问题;如果单表拆分为多表后,单台服务器依然无法满足性能要求,那就不得不再次进行业务分库的设计了。

NoSQL 数据库

上面发分库分表讨论的都是关系型数据库的优化方案,但关系型数据库也有其无法规避的缺点,比如无法直接存储某种结构化的数据、扩展表结构时会锁表影响线上性能、大数据场景下 I/O 较高、全文搜索的功能比较弱等。

基于这些缺点,也有很多新的数据库框架被创造出来,解决其某方面的问题。

比如以 Redis 为代表的的 KV 存储,可以解决无法存储结构化数据的问题;以 MongoDB 为代表的的文档数据库可以解决扩展表结构被强 Schema 约束的问题;以 HBase 为代表的的列式数据库可以解决大数据场景下的 I/O 问题;以 ES 为代表的的全文搜索引擎可以解决全文检索效率的问题等。

这些数据库统称为 NoSQL 数据库,但 NoSQL 并不是全都不能写 SQL,而是 Not Only SQL 的意思。

NoSQL 数据库除了聚焦于解决某方面的问题以外也会有其自身的缺点,比如 Redis 没有支持完整的 ACID 事务、列式存储在更新一条记录的多字段时性能较差等。因此并不是说使用了 NoSQL 就能一劳永逸,更多的是按需取用,解决业务面临的问题。

关于 NoSQL 的更多了解,推荐大家可以看看《NoSQL 精粹》这本书。

缓存

如果 NoSQL 也解决不了业务的高性能诉求,那么或许你需要加点缓存

缓存最直接的概念就是把常用的数据存在内存中,当业务请求来查询的时候直接从内存中拿出来,不用重新去数据库中按条件查询,也就省去了大量的磁盘 IO 时间。

一般来说缓存都是通过 Key-Value 的方式存储在内存中,根据存储的位置,分为单机缓存和集中式缓存。单机缓存就是存在自身服务器所在的机器上,那么势必会有不同机器数据可能不一致,或者重复缓存的问题,要解决可以使用查询内容做路由来保障同一记录始终到同一台机器上查询缓存。集中式缓存则是所有服务器都去一个地方查缓存,会增加一些调用时间。

缓存可以提升性能是很好理解的,但缓存同样有着它的问题需要应对或规避。数据时效性是最容易想到的问题,但也可以靠同时更新缓存的策略来保障数据的时效性,除此之外还有其他几个常见的问题。

如果某条数据不存在,缓存中势必查不到对应的 KEY,从而就会请求数据库确认是否有新增加这条数据,如果始终没有这条数据,而客户端又反复频繁地查询这条数据,就会变相地对数据库造成很大的压力,换句话说,缓存失去了保护作用,请求穿透到了数据库,这称为缓存穿透。

应对缓存穿透,最好的手段就是把“空值”这一情况也缓存下来,当客户端下次再查询时,发现缓存中说明了该数据是空值,则不会再问询数据库。但也要注意如果真的有对应数据写入了数据库,应当能及时清除”空值“缓存。

为了保障缓存的数据及时更新,常常都会根据业务特性设置一个缓存过期时间,在缓存过期后,到再次生成期间,如果出现大量的查询,会导致请求都传递到数据库,而且会多次重复生成缓存,甚至可能拖垮整个系统,这就叫缓存雪崩,和缓存穿透的区别在于,穿透是面对空值的情况,而雪崩是由于缓存重新生成的间隔期大量请求产生的连锁效应。

既然是缓存更新时重复生成所导致的问题,那么一种解法就是在缓存重新生成前给这个 KEY 加锁,加锁期间出现的请求都等待或返回默认值,而不去都尝试重新生成缓存。

另一种方法是干脆不要由客户端请求来触发缓存更新,而是由后台脚本统一更新,同样可以规避重复请求导致的重复生成。但是这就失去了只缓存热点数据的能力,如果缓存因空间问题被清除了,也会因为后台没及时更新导致查不到缓存数据,这就会要求更复杂的后台更新策略,比如主动查询缓存有效性、缓存被删后通知后台主动更新等。

虽说在有限的内存空间内最好缓存热点数据,但如果数据过热,比如微博的超级热搜,也会导致缓存服务器压力过大而崩溃,称之为缓存热点问题。

可以复制多份缓存副本,来分散缓存服务器的单机压力,毕竟堆机器是最简单有效。此处也要注意,多个缓存副本不要设置相同的缓存过期时间,否则多处缓存同时过期,并同时更新,也容易引起缓存雪崩,应该设置一个时间范围内的随机值来更新缓存。

2.2 计算高性能

讲完存储高性能,再讲计算高性能,计算性能的优化可以先从单机性能优化开始,多进程、多线程、IO 多路复用、异步 IO 等都存在很多可以优化的地方,但基本系统或框架已经提供了基本的优化能力,只需使用即可。

负载均衡

如果单机的性能优化已经到了瓶颈,无法应对业务的增长,就会开始增加服务器,构建集群。对于计算来说,每一台服务器接到同样的输入,都应该返回同样的输出,当服务器从单台变成多台之后,就会面临请求来了要由哪一台服务器处理的问题,我们当然希望由当前比较空闲的服务器去处理新的请求,这里对请求任务的处理分配问题,就叫负载均衡。

负载均衡的策略,从分类上来说,可以分为三类:

DNS 负载均衡:通过 DNS 解析,来实现地理级别的均衡,其成本低,分配策略很简单,可以就近访问来提升访问速度,但 DNS 的缓存时间长,由于更新不及时所以无法快速调整,且控制权在各域名商下,且无法根据后端服务器的状态来决定分配策略。 硬件负载均衡:直接通过硬件设备来实现负载均衡,类似路由器路由,功能和性能都很强大,可以做到百万并发,也很稳定,支持安全防护能力,但是同样无法根据后端服务器状态进行策略调整,且价格昂贵。软件负载均衡:通过软件逻辑实现,比如 nginx,比较灵活,成本低,但是性能一般,功能也不如硬件强大。

一般来说,DNS 负载均衡用于实现地理级别的负载均衡;硬件负载均衡用于实现集群级别的负载均衡;软件负载均衡用于实现机器级别的负载均衡。

所以部署起来可以按照这三层去部署,第一层通过 DNS 将请求分发到北京、上海、深圳的机房;第二层通过硬件负载均衡将请求分发到当地三个集群中的一个;第三层通过软件策略将请求分发到具体的某台服务器去响应业务。

就负载均衡算法来说,多是我们很熟悉的算法,如轮询、加权轮询、负载最低优先、性能最优优先、Hash 分配等,各有特点,按需采用即可。

03、高可用架构模式

3.1 理论方式

CAP 与 BASE
在说高可用之前,先来说说 CAP 理论,即:

在一个分布式系统(指互相连接并共享数据的节点的集合)中,当涉及读写操作时,只能保证一致性(Consistence)、可用性(Availability)、分区容错性(Partition Tolerance)三者中的两个,另外一个必须被牺牲。

大家可能都知道 CAP 定理是什么,但大家可能不知道,CAP 定理的作者(Seth Gilbert & Nancy Lynch)其实并没有详细解释 CAP 三个单词的具体含义,目前大家熟悉的解释其实是另一个人(Robert Greiner)给出的。而且他还给出了两版有所差异的解释。

书中第二版解释算是对第一版解释的加强,他要加强的点主要是:

CAP 描述的分布式系统,是互相连结并共享数据的节点的集合。因为其实并不是所有的分布式系统都会互连和共享数据。CAP 理论是在涉及读写操作的场景下的理论,而不是分布式系统的所有功能。一致性只需要保障客户端读操作能读到最新的写操作结果,并不要求时时刻刻分布式系统的数据都是一致的,这是不现实的,只要保障客户读到的一致即可。可用性要求非故障的节点在合理的时间内能返回合理的响应,所谓合理是指非错误、非超时,即使数据不是最新的数据,也是合理的“旧数据”,是符合可用性的。分区容错性要求网络分区后系统能继续履行职责,不仅仅要求系统不宕机,还要求能发挥作用,能处理业务逻辑。比如接口直接返回错误其实也代表系统在运行,但却没有履行职责。
在分布式系统下,P(分区容忍)是必须选择的,否则当分区后系统无法履行职责时,为了保障 C(一致性),就要拒绝写入数据,也就是不可用了

在此基础上,其实我们能选择的只有 C+P 或者 A+P,根据业务特性来选择要优先保障一致性还是可用性。

在选择保障策略时,有几个需要注意的点:

CAP 关注的其实是数据的粒度,而不是整个系统的粒度,因此对于系统内的不同数据(对应不同子业务),其实是可以按照业务特性采取不同的 CAP 策略的。CAP 实际忽略了网络延迟,也就是允许数据复制过程中的短时间不一致,如果某些业务比如金融业务无法容忍这一点,那就只能对单个对象做单点写入,其他节点备份,无法做多点写入。但对于不同的对象,其实可以分库来实现分布式。当没有发生分区现象时,也就是不用考虑 P 时,上述限制就不存在,此时应该考虑如何保障 CA。当发生分区后,牺牲 CAP 的其中一个并不代表什么都不用做,而是应该为分区后的恢复 CA 做准备,比如记录分区期间的日志以供恢复时使用。

随 CAP 的一个退而求其次,也更现实的追求,是 BASE 理论,即基本可用,保障核心业务的可用性;软状态,允许系统存在数据不一致的中间状态;最终一致性,一段时间后系统应该达到一致。

FMEA 分析法

要保障高可用,我们该怎么下手呢?俗话说知己知彼才能有的放矢,因此做高可用的前提是了解系统存在怎样的风险,并且还要识别出风险的优先级,先治理更可能发生的、影响更大的风险。说得简单,到底怎么做?业界其实已经提供了排查系统风险的基本方法论,即 FMEA(Failure mode and effects analysis)——故障模式与影响分析。

FMEA 的基本思路是,面对初始的架构设计图,考虑假设其中某个部件发生故障,对系统会造成什么影响,进而判断架构是否需要优化。

具体来说,需要画一张表,按照如下步骤逐个列出:

功能点:列出业务流程中的每个功能点。故障模式:量化描述该功能可能发生怎样的故障,比如 MySQL 响应时间超过3秒。故障影响:量化描述该每个故障可能导致的影响,但不用非常精确,比如20%用户无法登录。严重程度:设定标准,给每个影响的严重程度打分。故障原因:对于每个故障,考虑有哪些原因导致该故障。故障概率:对于每个原因,考虑其发生的概率,不用精确,分档打分即可。风险程度:=严重程度 * 故障概率,据此就可以算出风险的处理优先级了,肯定是程度分数越高的越应该优先解决。已有措施、解决措施、后续规划:用于梳理现状,思考未来的改进方案等。
基于上面这套方法论,我们可以有效地对系统的风险进行梳理,找出需要优先解决的风险点,从而提高系统的可用性。

除了 FMEA,其实还有一种应用更广泛的风险分析和治理的理论,即 BCP——业务连续性计划,它是一套基于业务规律的规章流程,保障业务或组织在面对突发状况时其关键业务功能可以持续不中断。

相比 FMEA,BCP 除了评估风险及重要程度,还要求详细地描述应对方案、残余风险、灾备恢复方案,并要求进行相应故障的培训和演习安排,尽最大努力保障业务连续性。

知道风险在哪、优先治理何种风险之后,就可以着手优化架构。和高性能架构模式一样,高可用架构也可以从存储和计算两个方面来分析。

3.2 存储高可用

存储高可用的本质都是通过将数据复制到多个存储设备,通过数据冗余的方式来提高可用性。

双机架构

让我们先从简单的增加一台机器开始,即双机架构。

当机器变成两台后,根据两台机器担任的角色不同,就会分成不同的策略,比如主备、主从、主主。

主备复制的架构是指一台机器作为客户端访问的主机,另一台机器纯粹作为冗余备份用,当主机没有故障时,备机不会被客户端访问到,仅仅需要从主机同步数据。这种策略很简单,可以应对主机故障情况下的业务可用性问题,但在平常无法分担主机的读写压力,有点浪费。

主从复制的架构和主备复制的差别在于,从机除了复制备份数据,还需要干活,即还需要承担一部分的客户端请求(一般是分担读操作)。当主机故障时,从机的读操作不会受到影响,但需要增加读操作的请求分发策略,且和主备不同,由于从机直接提供数据读,如果主从复制延迟大,数据不一致会对业务造成更明显的影响。

对于主备和主从两种策略,如果主机故障,都需要让另一台机器变成主机,才能继续完整地提供服务,如果全靠人工干预来切换,会比较滞后和易错,最好是能够自动完成切换,这就涉及双机切换的策略。

在考虑双机切换时,要考虑什么?首先是需要感知机器的状态,是两台机器直连传递互相的状态,还是都传递给第三方来仲裁?所谓状态要包含哪些内容才能定义一台主机是故障呢?是发现一次问题就切换还是多观察一会再切换?切换后如果主机恢复了是切换回来还是自动变备机呢?需不需要人工二次确认一下

这些问题可能都得根据业务的特性来得出答案,此处仅给出三种常见的双机切换模式:

互连式:两台机器直接连接传递信息,并根据传递的状态信息判断是否要切换主机,如果通道本身发生故障则无法判断是否要切换了,可以再增加一个通道构成双通道保障,不过也只是降低同时故障的概率。中介式:通过第三方中介来收集机器状态并执行策略,如果通道发生断连,中介可以直接切换其他机器作为主机,但这要求中介本身是高可用的,已经有比较成熟的开源解决方案如 zookeeper、keepalived。模拟式:备机模拟成客户端,向主机发送业务类似的读写请求,根据响应情况来判断主机的状态决定是否要切换主机,这样可以最真实地感受到客户端角度下的主机故障,但和互连式不同,能获取到的其他机器信息很少,容易出现判断偏差。
最后一种双机架构是主主复制,和前面两种只有一主的策略不同,这次两台都是主机,客户端的请求可以达到任何一台主机,不存在切换主机的问题。但这对数据的设计就有了严格的要求,如果存在唯一 ID、严格的库存数量等数据,就无法适用,这种策略适合那些偏临时性、可丢失、可覆盖的数据场景。

数据集群

采用双机架构的前提是一台主机能够存储所有的业务数据并处理所有的业务请求,但机器的存储和处理能力是有上限的,在大数据场景下就需要多台服务器来构成数据集群。

如果是因为处理能力达到瓶颈,此时可以增加从机帮主机分担压力,即一主多从,称为数据集中集群。这种集群方式需要任务分配算法将请求分散到不同机器上去,主要的问题在于数据需要复制到多台从机,数据的一致性保障会比一主一从更为复杂。且当主机故障时,多台从机协商新主机的策略也会变得复杂。这里有开源的 zookeeper ZAB 算法可以直接参考。

如果是因为存储量级达到瓶颈,此时可以将数据分散存储到不同服务器,每台服务器负责存储一部分数据,同时也备份一部分数据,称为数据分散集群。数据分散集群同样需要做负载均衡,在数据分区的分配上,hadoop 采用独立服务器负责数据分区的分配,ES 集群通过选举一台服务器来做数据分区的分配。除了负载均衡,还需要支持扩缩容,此外由于数据是分散存储的,当部分服务器故障时,要能够将故障服务器的数据在其他服务器上恢复,并把原本分配到故障服务器的数据分配到其他正常的服务器上,即分区容错性。

数据分区 

数据集群可以在单台乃至多台服务器故障时依然保持业务可用,但如果因为地理级灾难导致整个集群都故障了(断网、火灾等),那整个服务就不可用了。面对这种情况,就需要基于不同地理位置做数据分区。

做不同地理位置的数据分区,首先要根据业务特性制定分区规则,大多还是按照地理位置提供的服务去做数据分区,比如中国区主要存储中国用户的数据。

既然分区是为了防灾,那么一个分区肯定不止存储自身的数据,还需要做数据备份。从数据备份的策略来说,主要有三种模式:

集中式:存在一个总备份中心,所有的分区数据都往这个总中心备份,设计起来简单,各个分区间没有联系,不会互相影响,也很容易扩展新的分区。但总中心的成本较高,而且总中心如果出故障,就要全部重新备份。互备式:每个分区备份另一个分区的数据,可以形成一个备份环,或者按地理位置远近来搭对备份,这样可以直接利用已有的设备做数据备份。但设计较复杂,各个分区间需要联系,当扩展新分区时,需要修改原有的备份线路。独立式:每个分区配备自己的备份中心,一般设立在分区地理位置附近的城市,设计也简单,各个分区间不会影响,扩展新分区也容易。但是成本会很高,而且只能防范城市级的灾难。

3.3 计算高可用

从存储高可用的思路可以看出,高可用主要是通过增加机器冗余来实现备份,对计算高可用来说也是如此。通过增加机器,分担服务器的压力,并在单机发生故障的时候将请求分配到其他机器来保障业务可用性。

因此计算高可用的复杂性也主要是在多机器下任务分配的问题,比如当任务来临(比如客户端请求到来)时,如何选择执行任务的服务器?如果任务执行失败,如何重新分配呢?这里又可以回到前文说过的负载均衡相关的解法上。

计算服务器和存储服务器在多机器情况下的架构是类似的,也分为主备、主从和集群。

主备架构下,备机仅仅用作冗余,平常不会接收到客户端请求,当主机故障时,备机才会升级为主机提供服务。备机分为冷备和温备。冷备是指备机只准备好程序包和配置文件,但实际平常并不会启动系统。温备是指备机的系统是持续启动的,只是不对外提供服务,从而可以随时切换主机。

主从架构下,从机也要执行任务,由任务分配器按照预先定义的规则将任务分配给主机和从机。相比起主备,主从可以发挥一定的从机性能,避免成本空费,但任务的分配就变得复杂一些。

集群架构又分为对称集群和非对称集群。

对称集群也叫负载均衡集群,其中所有的服务器都是同等对待的,任务会均衡地分配到每台服务器。此时可以采用随机、轮询、Hash 等简单的分配机制,如果某台服务器故障,不再给它分配任务即可。

非对称集群下不同的服务器有不同的角色,比如分为 master 和 slave。此时任务分配器需要有一定的规则将任务分配给不同角色的服务器,还需要有选举策略来在 master 故障时选择新的 master。这个选举策略的复杂度就丰俭由人了。

异地多活

讲存储高可用已经说过数据分区,计算高可用也有类似的高可用保障思路,归纳来说,它们都可以根据需要做异地多活,来提高整体的处理能力,并防范地区级的灾难。异地多活中的”异地“,就是指集群部署到不同的地理位置,“活”则强调集群是随时能提供服务的,不同于“备”还需要一个切换过程。

按照规模,异地多活可以分为同城异区、跨城异地和跨国异地。显而易见,不同模式下能够应对的地区级故障是越来越高的,但同样的,距离越远,通信成本与延迟就越高,对通信通道可用性的挑战也越高。因此跨城异地已经不适合对数据一致性要求非常高的业务,而跨国异地往往是用来给不同国家的用户提供不同服务的。

由于异地多活需要花费很高的成本,极大地增加系统复杂度,因此在设计异地多活架构时,可以不用强求为所有业务都做异地多活,可以优先为核心业务实现异地多活。尽量保障绝大部分用户的异地多活,对于没能保障的用户,通过挂公告、事后补偿、完善失败提示等措施进行安抚、提升体验。毕竟要做到100%可用性是不可能的,只能在能接受的成本下尽量逼近,所以当可用性达到一定瓶颈后,补偿手段的成本或许更低。

在异地部署的情况下,数据一定会冗余存储,物理上就无法实现绝对的实时同步,且距离越远对数据一致性的挑战越大,虽然可以靠减少距离、搭建高速专用网络等方式来提高一致性,但也只是提高而已,因此大部分情况下, 只需考虑保障业务能接受范围下的最终一致性即可。

在同步数据的时候,可以采用多种方式,比如通过消息队列同步、利用数据库自带的同步机制同步、通过换机房重试来解决同步延迟问题、通过 session id 让同一数据的请求都到同一机房从而不用同步等。

可见,整个异地多活的设计步骤首先是对业务分级,挑选出核心业务做异地多活,然后对需要做异地多活的数据进行特征分析,考虑数据量、唯一性、实时性要求、可丢失性、可恢复性等,根据数据特性设计数据同步的方案。最后考虑各种异常情况下的处理手段,比如多通道同步、日志记录恢复、用户补偿等,此时可以借用前文所说的 FMEA 等方法进行分析。

接口级故障

前面讨论的都是较为宏观的服务器、分区级的故障发生时该怎么办,实际上在平常的开发中,还应该防微杜渐,从接口粒度的角度,来防范和应对接口级的故障。应对的核心思路依然是优先保障核心业务和绝大部分用户可用。

对于接口级故障,有几个常用的方法:限流、排队、降级、熔断。其中限流和排队属于事前防范的措施,而降级和熔断属于接口真的故障后的处理手段。

限流的目的在于控制接口的访问量,避免被高频访问冲垮。

从限流维度来说,可以基于请求限流,即限制某个指标下、某个时间段内的请求数量,阈值的定义需要基于压测和线上情况来逐步调优。还可以基于资源限流,比如根据连接数、文件句柄、线程数等,这种维度更适合特殊的业务。

实现限流常用的有时间窗算法和桶算法。

时间窗算法分为固定时间窗和滑动时间窗。

固定时间窗通过统计固定时间周期内的量级来决定限流,但存在一个临界点的问题,如果在两个时间窗的中间发生超大流量,而在两个时间窗内都各自没有超出限制,就会出现无法被限流拦截的接口故障。因此滑动时间窗采用了部分重叠的时间统计周期来解决临界点问题。

桶算法分为漏桶和令牌桶。

漏桶算法是将请求放入桶中,处理单元从桶里拿请求去进行处理,如果桶堆满了就丢弃掉新的请求,可以理解为桶下面有个漏斗将请求往处理单元流动,整个桶的容量是有限的。这种模式下流入的速率取决于请求的频率,当桶内有堆积的待处理请求时,流出速率是匀速的。漏桶算法适用于瞬时高并发的场景(如秒杀),处理可能慢一点,但可以缓存部分请求不丢弃。

令牌桶算法是在桶内放令牌,令牌数是有限的,新的请求需要先到桶里拿到令牌才能被处理,拿不到就会被丢弃。和漏桶匀速流出处理不同,令牌桶还能通过控制放令牌的速率来控制接收新请求的频率,对于突发流量,可靠累计的令牌来处理,但是相对的处理速度也会突增。令牌桶算法适用于控制第三方服务访问速度的场景,防止压垮下游。

除了限流,还有一种控制处理速度的方法就是排队。当新请求到来后先加入队列,出队端通过固定速度出队处理请求,避免处理单元压力过大。队列也有长度限制,其机制和漏桶算法差不多。

如果真的事前防范真的被突破了,接口很可能或已经发生了故障,还能做什么呢?

一种手段是熔断,即当处理量达到阈值,就主动停掉外部接口的访问能力,这其实也是一种防范措施,对外的表现虽然是接口访问故障,但系统内部得以被保护,不会引起更大的问题,待存量处理被消化完,或者外部请求减弱,或完成扩容后,再开放接口。熔断的设计主要是阈值,需要按照业务特点和统计数据制定。

当接口故障后(无论是被动还是主动断开),最好能提供降级策略。降级是丢车保帅,放弃一下非核心业务,保障核心业务可用,或者最低程度能提供故障公告,让用户不要反复尝试请求来加重问题了。比起手动降级,更好的做法也是自动降级,需要具备检测和发现降级时机的机制。

04、可扩展架构模式

再回顾一遍互联网行业的金科玉律:只有变化才是不变的。在设计架构时,一开始就要抱着业务随时可能变动导致架构也要跟着变动的思想准备去设计,差别只在于变化的快慢而已。因此在设计架构时一定是要考虑可扩展性的。

在思考怎样才是可扩展的时候,先想一想平常开发中什么情况下会觉得扩展性不好?大都是因为系统庞大、耦合严重、牵一发而动全身。因此对可扩展架构设计来说,基本的思想就是拆分。

拆分也有多种指导思想,如果面向业务流程来谈拆分,就是分层架构;如果面向系统服务来谈拆分,就是 SOA、微服务架构;如果面向系统功能来拆分,就是微内核架构。

分层架构

分层架构是我们最熟悉的,因为互联网业务下,已经很少有纯单机的服务,因此至少都是 C/S 架构、B/S 架构,也就是至少也分为了客户端/浏览器和后台服务器这两层。如果进一步拆分,就会将后台服务基于职责进行自顶向下的划分,比如分为接入层、应用层、逻辑层、领域层等。

分层的目的当然是为了让各个层次间的服务减少耦合,方便进行各自范畴下的优化,因此需要保证各层级间的差异是足够清晰、边界足够明显的,否则当要增加新功能的时候就会不知道该放到哪一层。各个层只处理本层逻辑,隔离关注点。

额外需注意的是一旦确定了分层,请求就必须层层传递,不能跳层,这是为了避免架构混乱,增加维护和扩展的复杂度,比如为了方便直接跨层从接入层调用领域层查询数据,当需要进行统一的逻辑处理时,就无法切面处理所有请求了。

SOA 架构

SOA 架构更多出现在传统企业中,其主要解决的问题是企业中 IT 建设重复且效率低下,各部门自行接入独立的 IT 系统,彼此之间架构、协议都不同,为了让各个系统的服务能够协调工作,SOA 架构应运而生。

其有三个关键概念:服务、ESB 和松耦合。

服务是指各个业务功能,比如原本各部门原本的系统提供的服务,可大可小。由于各服务之间无法直接通信,因此需要 ESB,即企业服务总线进行对接,它将不同服务连接在一起,屏蔽各个服务的不同接口标准,类似计算机中的总线。松耦合是指各个服务的依赖需要尽量少,否则某个服务升级后整个系统无法使用就麻烦了。

这里也可以看出,ESB 作为总线,为了对接各个服务,要处理各种不同的协议,其协议转换耗费了大量的性能,会成为整个系统的瓶颈。

微服务

微服务是近几年最耳熟能详的架构,其实它和 SOA 有一些相同之处,比如都是将各个服务拆分开来提供能力。但是和 SOA 也有一些本质的区别,微服务是没有 ESB 的,其通信协议是一致的,因此通信管道仅仅做消息的传递,不理解内容和格式,也就没有 ESB 的问题。而且为了快速交付、迭代,其服务的粒度会划分地更细,对自动化部署能力也就要求更高,否则部署成本太大,达不到轻量快速的目的。

当然微服务虽然很火,但也不是解决所有问题的银弹,它也会有一些问题存在。如果服务划分的太细,那么互相之间的依赖关系就会变得特别复杂,服务数量、接口量、部署量过多,团队的效率可能大降,如果没有自动化支撑,交付效率会很低。由于调用链太长(多个服务),因此性能也会下降,问题定位会更困难,如果没有服务治理的能力,管理起来会很混乱,不知道每个服务的情况如何。

因此如何拆分服务就成了每个使用微服务架构的团队的重要考量点。这里也提供一些拆分的思路:

三个火枪手原则:考虑每三个人负责一个服务,互相可以形成稳定的人员备份,讨论起来也更容易得出结论,在此基础上考虑能负责多大的一个服务。基于业务逻辑拆分:最直观的就是按逻辑拆分,如果职责不清,就参考三个火枪手原则确定服务大小。基于稳定性拆分:按照服务的稳定性分为稳定服务和变动服务,稳定服务粒度可以粗一些,变动服务粒度可以细一些,目的是减少变动服务之间的影响,但总体数量依然要控制。基于可靠性拆分:按照可靠性排序,要求高的可以拆细一些,由前文可知,服务越简单,高可用方案就会越简单,成本也会越低。优先保障核心服务的高可用。基于性能拆分:类似可靠性,性能要求越高的,拆出来单独做高性能优化,可有效降低成本。
微服务架构如果没有完善的基础设施保障服务治理,那么也会带来很多问题,降低效率,因此根据团队和业务的规模,可以按以下优先级进行基础设施的支持:

优先支持服务发现、服务路由、服务容错(重试、流控、隔离),这些是微服务的基础。接着支持接口框架(统一的协议格式与规范)、API 网关(接入鉴权、权限控制、传输加密、请求路由等),可以提高开发效率。然后支持自动化部署、自动化测试能力,并搭建配置中心,可以提升测试和运维的效率。最后支持服务监控、服务跟踪、服务安全(接入安全、数据安全、传输安全、配置化安全策略等)的能力,可以进一步提高运维效率。
微内核架构
最后说说微内核架构,也叫插件化架构,顾名思义,是面向功能拆分的,通常包含核心系统和插件模块。在微内核架构中,核心系统需要支持插件的管理和链接,即如何加载插件,何时加载插件,插件如何新增和操作,插件如何和核心引擎通信等。

举一个最常见的微内核架构的例子——规则引擎,在这个架构中,引擎是内核,负责解析规则,并将输入通过规则处理后得到输出。而各种规则则是插件,通常根据各种业务场景进行配置,存储到数据库中。

05、总结

人们通常把某项互联网业务的发展分为四个时期:初创期、发展期、竞争期和成熟期。

在初创期通常求快,系统能买就买,能用开源就用开源,能用的就是好的,先要活下来;到了发展期开始堆功能和优化,要求能快速实现需求,并有余力对一些系统的问题进行优化,当优化到顶的时候就需要从架构层面来拆分优化了;进入竞争期后,经过发展期的快速迭代,可能会存在很多重复造轮子和混乱的交互,此时就需要通过平台化、服务化来解决一些公共的问题;最后到达成熟期后,主要在于补齐短板,优化弱项,保障系统的稳定。

在整个发展的过程中,同一个功能的前后要求也是不同的,随着用户规模的增加,性能会越来越难保障,可用性问题的影响也会越来越大,因此复杂度就来了。

对于架构师来说,首要的任务是从当前系统的一大堆纷繁复杂的问题中识别出真正要通过架构重构来解决的问题,集中力量快速突破,但整体来说,要徐徐图之,不要想着用重构来一次性解决所有问题。

对项目中的问题做好分类,划分优先级,先易后难,才更容易通过较少的资源占用,较快地得到成果,提高士气。然后再循序渐进,每个阶段控制在 1~3 个月,稳步推进。

当然,在这个过程中,免不了和上下游团队沟通协作,需要注意的是自己的目标和其他团队的目标可能是不同的,需要对重构的价值进行换位思考,让双方都可以合作共赢,才能借力前进。

还是回到开头的那句话,架构设计的主要目的是为了解决软件系统复杂度带来的问题。首先找到主要矛盾在哪,做到有的放矢,然后再结合知识、经验进行设计,去解决面前的问题。

祝各位开发者都成为一名合格的架构师。以上便是本次分享的全部内容,如果觉得内容有用,欢迎转发分享。

-End-

原创作者|Cloudox


作者:腾讯云开发者
链接:https://juejin.cn/post/7251779626682023994
来源:稀土掘金

收起阅读 »

《Thinking In Java》作者:不要使用并发!

前言 今天纯粹就是带你们来读读书的~ 最近除了工作,特地买回了自己很喜欢的作者新发售的一本书《On Java》,作者是我的老朋友布鲁斯·埃克尔,在Java领域很有名,你可能没听过他的名字,但极有可能听过他的另一本书《Thinking In Java》,我想很...
继续阅读 »

前言



今天纯粹就是带你们来读读书的~


最近除了工作,特地买回了自己很喜欢的作者新发售的一本书《On Java》,作者是我的老朋友布鲁斯·埃克尔,在Java领域很有名,你可能没听过他的名字,但极有可能听过他的另一本书《Thinking In Java》,我想很多Java工程师都读过这本书,可以说是Java编程思想的良心之作。


虽然布鲁斯是我的老朋友,但我不得不吐槽一下,大概通读了一遍《On Java》之后,我心里大体认为是不如《Thinking In Java》的,可能和写小说一样,读者的要求高了,而作者的年纪大了。


我认识布鲁斯很多年了,他是个比较幽默风趣的人,经常在书中直言不讳某编程语言的垃圾之处,同时又对该语言的未来做一点展望,算是一个很中肯且典型的直男程序猿。


最后说一点,我认识他,他不认识我。





正文



我着重看了自己比较感兴趣的并发编程这一块,想知道这位大佬对于目前Java并发编程是否有新的看法和意见,不出我所料,他没讲什么重要的东西,但是好像又讲了,带着吐槽批判式的口吻,陈列了他喜欢和讨厌Java并发编程的地方。


所以我把一些我觉得有意思的地方画出来,分享给大家,看看一个资深Java大佬对并发编程的理解。



1、大佬的并发定律


111.png



其实看到作者研究出的这4条定律时,我还是挺意外的,第一句就点题了,不要使用并发。


仔细想想好像也对……再琢磨一下咦有感觉……最后回忆一下这些年参与的项目……哇擦好有道理!


接下来3条基本算是总纲了,后面的内容都是对这几条的说明。





2、你已埋下的隐患


222.png



这里就是对2、3条的具体说明了,有些话我觉得略显啰嗦,我把对于程序员来讲比较重要的一句话画出来了。


你很容易写出一个看起来运行正常但实际上有问题的并发程序。


看到这句话的时候是不是已经开始默默打开自己的IDEA了,然后审视了一遍自己提交的代码?


别看了,你埋的炸弹还少么,能看出花来吗。


看清楚作者后面那句:你这个问题只有满足最罕见的条件时,才会将自己暴露出来。


我可以这么说,在座绝大部分同行去了下一家公司干活,可能上一家公司的新同事才会在你毫不知情的时候默默踩到你埋的地雷然后被炸个粉碎,而你在新公司也正在踩别人的雷,出来混都是要还的。





3、别否认你就是这种人


333.png



看到这里的时候,我忍不住亲了布鲁斯一口,他痛快的描述出了我一直以来在工作中说不清道不明的烦躁,因为你总会遇到这样的人,同时很难发现自己到底是不是这样的人。


我在工作前3年其实如履薄冰,感觉自己什么都学了,但去了公司发现什么都不会,怀揣着自我否定一点点完成别人布置的任务,直到工作5年以后才有一种醍醐灌顶的感觉,理解了自己做的是什么,接下来要学习哪个方向,以前学到那么多东西究竟是怎么串联起来的,这是一种打通任督二脉的满足感。


等到工作8年之后,才真正开始回头看Java语言,对以前烦厌欲呕的Java基础提起莫名的兴趣,同时喜欢看书,写案例,尝试阅读别人的源码等等,此时我才真正有自己一只腿迈进Java领域的意识。


同时,在工作中会对许多能力一般但沟通较为偏执的同事产生抵触情绪,我有时会认为这是一种大人看小孩耍脾气的感觉,这个只有在工作多年之后才会产生,作者很准确的阐述出了我描绘不出的这种解释。


同样的,我认为在这个成长的过程中,我一定也成为过别人心中眼高手低的人。


我在这里能分享给大家的经验就是,在工作中多学习少争论,多和厉害的人走近一点,虚心把对方的东西都学过来,长此以往你会进步神速,这不是你在网上学习能得到的,一定是在工作中。





4、高级Javaer都有过的想法


444.png



这里我为什么专门画出来,因为很多高级javaer一定有过类似的想法,就是发现了Java并不擅长做并发编程,是否可以用其他语言来完成,而Java只做他自己擅长的事。


至少我以前就想过,可现实层面我认为是异想天开的,尤其是工作中,基本都是团队开发,这种想法就已经几乎被pass掉了,同时为了某一个领域的实现专门引入一门编程语言甚至体系,得不偿失,毕竟Java不擅长但却成熟,光是网上卖课郎告诉你的就有N种诸如《Java千亿级高并发解决方案》、《Java万亿级电商实战》等等这样的受用终生的鬼东西。


而你辛辛苦苦跟着学完后,发现玛德用不上,就像你学了《九阴真经》后以为可以当武林盟主最终却进了铁匠铺,而铁匠铺老板还不想听你鬼扯只想让你每天加班多打几把武器。


图片中我还画了个圈,我想不少人应该知道这门语言,还蛮有名的,就是国内不太火,这有编程历史因素在里面,其实还有一门语言也蛮适合的,而且这几年也挺火,我想你也猜到了,我觉得5年+的Java工程师都应该关注甚至学习一下。





5、我和大佬不谋而合


555.png



这是接近尾声的部分了,也是这位作者熟悉的笔法,发泄完自己的情绪后又开始对Java的某新版本极尽赞美,典型的被PUA了。


但不得不说,Java8我也认为是革命性的版本,在这个版本发布以前,作为Java工程师你甚至不会想到它敢做到这个地步,就像布鲁斯书中讲的,这是史诗般的魔法。


你可以在Java8的版本里发现一些其他语言的影子,这没什么,天下语言一大抄,发展到一定程度,已经是避免不了的趋势了。


重要的是,这个版本给Java上油了,为后续的版本提供了活力,而Java17作为官方长久支持版本的其中一个非常重要的版本,你可以发现有其他框架给它背书,比如SpringBoot3只支持Java17,而Jenkins也宣布在新版本放弃Java8并且该团队更推荐Java17,IDEA后续新版本可能也会放弃Java8,这明显就是小圈子,有利益的勾连,但对Java本身发展不是坏事。


所以,Java8的核心技术点最应该学习,如果现在还一点不会,赶紧学吧,我认为这是后续版本的基础了,lambada表达式、stream流不必说了,是Java8版本的核心技术,CompletableFuture作为Java8并发编程中最大的改进要花时间好好学习,这也是本书作者所提到的,而且后面专门花了一个大章来讲CompletableFuture。


作者虽然一直强调不要使用并发,但却对Java8的并发编程工具花了较大篇幅,我个人认为他更多的是一种见猎心喜,可是我们面试经常会问到这个工具类相关的东西,看一下大佬对该工具的理解还是很有用的。





总结



《On Java》这本书说实话,我觉得没有作者的《Thinking In Java》写得好,可能有多种原因导致。


我说下我觉得不好的主要感受在哪里,一是有些地方翻译的不好,会给你带来困惑,二是作者给出的一些案例有自己的风格,而且例子我没觉得那么通俗易懂。


但总体上还是值得一看,尤其是他穿插了很多和其他如C/C++、GO等语言的比较,还包含了自己对Java的理解,尤其是一些编程思想很直接,最后给出了林林总总有接近70条的编程指南,我认为对于初学者树立未来工作中的编程思想是很有用的。


这位作者的文字中弥漫着一股浓烈的不推荐使用并发编程的味道,我觉得是他多年工作的心得,所以大家在往后的工作中不妨可以借鉴下大佬的思维。


好了,我今天也就是带你读了下书,读的还开心吗。







本人原创文章纯手打,觉得有一滴滴帮助的话就请点个赞和收藏吧~


本人长期分享工作中的感悟、经验及实用案例,喜欢的话也可以进入个人主页关注一下哦~


作者:程序员济癫
来源:juejin.cn/post/7147523943321042980
收起阅读 »

个人支付项目,已稳定收款 100+

对,没错,又趁着周末两天 + 几个工作日晚上熬夜开发了个支付项目出来,赞赏平台。我对这个项目的定位非常简单,就是一个买卖平台。平台内容由我来发布,免费内容大家只需注册即可观看,如需付费则支付相关费用方可查看。下面是项目运行首页下面是项目登录注册页下面是商品支付...
继续阅读 »

对,没错,又趁着周末两天 + 几个工作日晚上熬夜开发了个支付项目出来,赞赏平台。

我对这个项目的定位非常简单,就是一个买卖平台。平台内容由我来发布,免费内容大家只需注册即可观看,如需付费则支付相关费用方可查看。

下面是项目运行首页


下面是项目登录注册页


下面是商品支付页面


虽然项目整体规模较小但也算是五脏俱全,有认证相关、有支付相关、也有分布式问题相关。对于没有做过个人项目特别是没做过支付项目的小伙伴来说,用来练手或者写在简历上都是未尝不可的。


那下面我来具体项目中几个重要的业务点。


1、网关认证


以前我们开发项目要进行认证基本都是通过在服务中写个拦截器,然后配置拦截器拦截所有的请求,最终通过拦截器的逻辑进行认证。这中方法不是不可以,但我觉得不好,如果我们项目中有三个微服务以上,那么这个拦截器的认证逻辑就会存在于每个微服务中,这是我认为的不好的点。


那我是怎么做的呢!


对,在网关服务里做认证动作。将认证动作迁移,因为我的个人项目是通过网关进行请求转发,所以,所有的请求都会先进入网关,再进入各个具体的业务服务,那问题就好办了。我直接通过实现网关的 GlobalFilter 接口拦截所有的请求,通过实现该接口进行认证逻辑处理,完成本平台的认证、续约、限流等功能。


下面来看看请求流程图


2、支付逻辑


支付功能可以说是本项目的重中之重,需要有非常强的健壮性。因为我是一位个人开发者,所以不能对接需要有营业执照的支付功能,最终我选择了支付宝的当面付这一个功能。


当面付的好处很多,第一它不需要营业执照,第二对接也非常简单而且有支付宝封装的SDK,所以本人再对接的过程中没有费多少力气就把接口打通了。


主要就是对接了当面付的三个接口:

  1. 获取支付二维码接口

  2. 支付成功的回调接口

  3. 订单状态回查接口


当然,这三个接口的代码量也是很大的,所以本人为了通用就又对他做了一层封装,使得项目调用支付功能就更加简单了。如下就可以完成一个支付功能的完整逻辑:


是不是很简单,如果需要代码的可以看文章末尾哦!


下面我来介绍一下本项目中付费内容的整个业务流程。


1、用户获取付费商品详情


2、点击查看内容,这里就有两种结果了

  • 第一种结果:商品已支付,直接显示内容给用户观看

  • 第二种结果:商品未支付,提示用户付款查看


3、当显示第二种结果时,如果用户点击付款,则进入后续流程


4、服务器请求支付宝第三方,获取对应金额的支付二维码,并将返回的二维码和用户绑定生成一个未支付的订单,最终将这个待支付二维码返回给页面


5、页面显示二维码之后,用户就需要进行扫码付款(打开支付宝APP扫码付款)


6、用户付款成功之后,支付宝第三方会自动回调第四步我给支付宝的回调地址。回调接口的逻辑就是将订单状态改为已支付并做一些后续的流程操作。


7、为了防止回调接口出问题,还写了一个定时任务,定时回查订单表中未支付订单的状态,循环请求支付宝询问支付支付成功并执行支付成功的相应回调逻辑。


支付业务流程图


3、手写分布式锁


相信分布式锁大家都不陌生,无非就是向中间件中放入一个标志量,存在即表示已锁,反之则未锁执行相关逻辑。


说都会说,但要真正自己手写而且做到高可用确是一个非常困难的问题。其中非常关键的一点就是如何解锁,如何做到业务执行完成百分之百解锁,那我再项目中是如何考虑的呢!


我先来简单的说一下思路:


1、定义一个分布式锁注解,用来标注那些方法需要分布式锁加持


2、定义一个切面,逻辑就是给加上了分布式注解的方法进行增强


3、增强的逻辑为:加锁、生成续约任务、执行业务逻辑、解锁


4、另起一个延迟线程池,每隔一定时间遍历一次续约任务集合,判断任务是否需要进行续约(这个逻辑判断很多如:续约次数过多、业务已执行完毕、是否需要续约等等)


具体业务流程如图(我画的比较多)


当然,为了方便你们理解,我还出了相关视频,地址:



http://www.bilibili.com/video/BV1jP…



以上,就是赞赏平台项目中三个比较大的亮点,不论是写在简历上还是当作个人项目都是一个非常不错的选择,那我也把这个项目搭建起来了,地址如下:



admire.j3code.cn



需要项目代码 + 视频 + 详细文档的,我都放在这个平台上了,自取即可。


我是J3code(三哥),咱们下回见

作者:J3code
链接:https://juejin.cn/post/7199820362954588197
来源:稀土掘金
收起阅读 »

为了摸鱼,我开发了一个工具网站

  大家好,我是派大星,由于前段时间实习入职,所以把时间以及精力都放在熟悉公司业务以及从工作中提升自己的业务逻辑,空余时间也是放在了学习新技术上,到目前为止也是参与了公司3个项目的开发团队中,参与过程中犯过错,暴露出了很多的不足,丧失过信心,学生时期...
继续阅读 »


  大家好,我是派大星,由于前段时间实习入职,所以把时间以及精力都放在熟悉公司业务以及从工作中提升自己的业务逻辑,空余时间也是放在了学习新技术上,到目前为止也是参与了公司3个项目的开发团队中,参与过程中犯过错,暴露出了很多的不足,丧失过信心,学生时期所带的傲气也是被一点一点的慢慢的打磨掉,正是因为这些,带给我的成长是巨大的。好了,闲言少叙,下面让我们进入今天的主题。


创作背景


       因为”懒“得走路,所以发明了汽车飞机,因为”懒“得干苦力活,所以发明了机器帮助我们做,很早之前看到过这个梗,而我这次同样也是因为”懒“,所以才开发出了这个工具。这里先卖个关子,先不说这个工具的作用,容我向大家吐槽一下这一段苦逼的经历。在我实习刚入职不久,就迎来了自己第一个任务,由于自己对所参与的项目的业务并不太了解,所以只能先做一些类似测试的工作,比如就像这次,组长给了我一份Json 文件,当我打开文件后看到数据都是一些地区名称,但当我随手的将滚动条往下一拉,瞬间发现不对劲,因为这个小小的文件行数竟然达到了1w+❗❗❗❗


不禁让我脊背发凉,但是这时我的担心还没达到最坏的地步,毕竟我还对具体的任务不了解。但当组长介绍任务内容,主要是让我将这些数据添加到数据库对应的表中,由于没有sql脚本,只有这个json 文件,需要手动去操作,而且给我定的任务周期是两天。听到这个时间时内心的慌张瞬间消失了,因为在之前我就了解过Navicat支持Json格式的文件直接导入数据,一个这么简单的任务给我两天时间,这不是非要让我带薪学习。


当我接下任务自信打开Navicat的导入功能时发现了一个重要问题,虽然它支持字段映射,但是给的Json数据是省市区地址名称,里面包含着各种嵌套,说实话到想到这里我已经慌了,而且也测试了一下字段只能单个的批量导入,而且不支持嵌套的类型,突然就明白为什么 给我两天的时间。


这时候心里只能默默祈祷已经有大神开发出了能处理这种数据的工具网站,但是经过一个小时的艰苦奋斗,但最终依旧是没有结果,网上有很多JsonSQl的工具网站,但是很多都支持简单支持一下生成创建表结构的语句,当场心如死灰,跑路的心都有了。但最终还是咬着牙 手动初始化数据,其过程中的“趣味” 实属无法用语言表达……

 上述就是这个工具的开发背景,也是怕以后再给我分配这么“有趣” 的任务。那么下面就给大家分享一下我自制的 Json转译SQL 工具,而且它也是一个完全免费的工具网站,同时这次也是将项目进行了 开源分享,大家也可以自己用现成的代码完成本地部署测试,感兴趣的同学可以自行拉取代码!



开源地址:github.com/pdxjie/sql-…



项目简介


Sql-Translation (简称ST)是一个 Json转译SQL 工具,在同类工具的基础上增强了功能,为节省时间、提高工作效率而生。并且遵循 “轻页面、重逻辑” 的原则,由极简页面来处理复杂任务,且它不仅仅是一个项目,而是以“降低时间成本、提高效率”为目标的执行工具。


技术选型

前端:

Vue
AntDesignUI组件库
MonacoEditor 编辑器
sql-formatter SQL格式化

后端:

SpringBoot
FastJson

项目特点

1.内置主键:JSON块如果包含id字段,在选择建表操作模式时内部会自动为id设置primary key
2.支持JSON数据生成建表语句:按照内置语法编写JSON,支持生成创建表的SQL语句
3.支持JSON数据生成更新语句:按照内置语法编写JSON,支持生成创更新的SQL语句,可配置单条件、多条件更新操作
4.支持JSON数据生成插入语句:按照内置语法编写JSON,支持生成创插入的SQL语句,如果JSON中包含 多层 (children)子嵌套,可按照相关语法指定作为父级id的字段
5.内置操作语法:该工具在选取不同的操作模式时,内置特定的使用语法规范
6.支持字段替换:需转译的JSON中字段与对应的SQL字段不一致时可以选择字段替换
7.界面友好:支持在线编辑JSON代码,支持代码高亮、语法校验、代码格式化、查找和替换、代码块折叠等,体验良好

解决痛点

下面就让我来给大家介绍一下Sql-Translation 可以解决哪些痛点问题:

需要将大量JSON中的数据导入到数据库中,但是JSON中包含大量父子嵌套关系 ——> 可以使用本站

在进行JSON数据导入数据库时,遇到JSON字段与数据库字段不一致需要替换字段时 ——> 可以使用本站

根据Apifox工具来实现更新或新增接口(前提是对接口已经完成了设计工作),提供了Body体数据,而且不想手动编写SQL时 ——> 可以使用本站

对上述三点进行进行举例说明(按照顺序):

第一种情况:

{
"id": "320500000",
"text": "苏州工业园区",
"value": "320500000",
"children": [
{
"id": "320505006",
"text": "斜塘街道",
"value": "320505006",
"children": []
},
{
"id": "320505007",
"text": "娄葑街道",
"value": "320505007",
"children": []
},
....
]
}

第二种情况:


第三种情况


以上内容就是该工具的简单介绍,由于该工具内置了部分语法功能,想要了解本工具全部工具以及想要动手操作的的同学请点击前往操作文档 ,该操作文档中包含了具体的语法介绍以及每种转换的具体示例数据 提供测试使用。


地址传送门



如果感兴趣的同学还希望可以到源码仓库给作者点个star⭐ 作为支持,非常感谢!


作者:派同学
链接:https://juejin.cn/post/7168285867160076295
来源:稀土掘金
收起阅读 »

宽表为什么横行?

宽表在BI业务中比比皆是,每次建设BI系统时首先要做的就是准备宽表。有时系统中的宽表可能会有上千个字段,经常因为“过宽”超过了数据库表字段数量限制还要再拆分。 为什么大家乐此不疲地造宽表呢?主要原因有两个。 一是为了提高查询性能。现代BI通常使用关系数据库作为...
继续阅读 »

宽表在BI业务中比比皆是,每次建设BI系统时首先要做的就是准备宽表。有时系统中的宽表可能会有上千个字段,经常因为“过宽”超过了数据库表字段数量限制还要再拆分。


为什么大家乐此不疲地造宽表呢?主要原因有两个。


一是为了提高查询性能。现代BI通常使用关系数据库作为后台,而SQL通常使用的HASH JOIN算法,在关联表数量和关联层级变多的时候,计算性能会急剧下降,有七八个表三四层级关联时就能观察到这个现象,而BI业务中的关联复杂度远远超过这个规模,直接使用SQL的JOIN就无法达到前端立等可取的查询需要了。为了避免关联带来的性能问题,就要先将关联消除,即将多表事先关联好采用单表存储(也就是宽表),再查询的时候就可以不用再关联,从而达到提升查询性能的目的。


二是为了降低业务难度。因为多表关联尤其是复杂关联在BI前端很难表达和使用。如果采用自动关联(根据字段类型等信息匹配)当遇到同维字段(如一个表有2个以上地区字段)时会“晕掉”不知道该关联哪个,表间循环关联或自关联的情况也无法处理;如果将众多表开放给用户来自行选择关联,由于业务用户无法理解表间关系而几乎没有可用性;分步关联可以描述复杂的关联需求,但一旦前一步出错就要推倒重来。所以,无论采用何种方式,工程实现和用户使用都很麻烦。但是基于单表来做就会简单很多,业务用户使用时没有什么障碍,因此将多表组织成宽表就成了“自然而然”的事情。


不过,凡事都有两面性,我们看到宽表好处而大量应用的同时,其缺点也不容忽视,有些缺点会对应用产生极大影响。下面来看一下。


宽表的缺点


数据冗余容量大


宽表不符合范式要求,将多个表合并成一个表会存在大量冗余数据,冗余程度跟原表数据量和表间关系有关,通常如果存在多层外键表,其冗余程度会呈指数级上升。大量数据冗余不仅会带来存储上的压力(多个表组合出来的宽表数量可能非常多)造成数据库容量问题,在查询计算时由于大量冗余数据参与运算还会影响计算性能,导致虽然用了宽表但仍然查询很慢。


数据错误


由于宽表不符合三范式要求,数据存储时可能出现一致性错误(脏写)。比如同一个销售员在不同记录中可能存储了不同的性别,同一个供应商在不同记录中的所在地可能出现矛盾。基于这样的数据做分析结果显然不对,而这种错误非常隐蔽很难被发现。


另外,如果构建的宽表不合理还会出现汇总错误。比如基于一对多的A表和B表构建宽表,如果A中有计算指标(如金额),在宽表中就会重复,基于重复的指标再汇总就会出现错误。


灵活性差


宽表本质上是一种按需建模的手段,根据业务需求来构建宽表(虽然理论上可以把所有表的组合都形成宽表,但这只存在于理论上,如果要实际操作会发现需要的存储空间大到完全无法接受的程度),这就出现了一个矛盾:BI系统建设的初衷主要是为了满足业务灵活查询的需要,即事先并不知道业务需求,有些查询是在业务开展过程中逐渐催生出来的,有些是业务用户临时起意的查询,这种灵活多变的需求采用宽表这种要事先加工的解决办法极为矛盾,想要获得宽表的好就得牺牲灵活性,可谓鱼与熊掌不可兼得。


可用性问题


除了以上问题,宽表由于字段过多还会引起可用性低的问题。一个事实表会对应多个维表,维表又有维表,而且表之间还可能存在自关联/循环关联的情况,这种结构在数据库系统中很常见,基于这些结构的表构建宽表,尤其要表达多个层级的时候,宽表字段数量会急剧增加,经常可能达到成百上千个(有的数据库表有字段数量限制,这时又要横向分表),试想一下,在用户接入界面如果出现上千个字段要怎么用?这就是宽表带来的可用性差的问题。


总体来看,宽表的坏处在很多场景中经常要大于好处,那为什么宽表还大量横行呢?


因为没办法。一直没有比宽表更好的方案来解决前面提到的查询性能和业务难度的问题。其实只要解决这两个问题,宽表就可以不用,由宽表产生的各类问题也就解决了。


SPL+DQL消灭宽表


借助开源集算器SPL可以完成这个目标。


SPL(Structured Process Language)是一个开源结构化数据计算引擎,本身提供了不依赖数据库的强大计算能力,SPL内置了很多高性能算法,尤其是对关联运算做了优化,对不同的关联场景采用不同的手段,可以大幅提升关联性能,从而不用宽表也能实时关联以满足多维分析时效性的需要。同时,SPL还提供了高性能存储,配合高效算法可以进一步发挥性能优势。


只有高性能还不够,SPL原生的计算语法不适合多维分析应用接入(生成SPL语句对BI系统改造较大)。目前大部分多维分析前端都是基于SQL开发的,但SQL体系(不用宽表时)在描述复杂关联计算上又很困难,基于这样的原因,SPL设计了专门的类SQL查询语法DQL(Dimensional Query Language)用于构建语义层。前端生成DQL语句,DQL Server将其转换成SPL语句,再基于SPL计算引擎和存储引擎完成查询返回给前端,实现全链路BI查询。需要注意的是,SPL只作为计算引擎存在,前端界面仍要由用户自行实现(或选用相应产品)。



SPL:关联实现技术


SPL如何不用宽表也能实现实时关联以满足性能要求的目标?


在BI业务中绝大部分的JOIN都是等值JOIN,也就是关联条件为等式的 JOIN。SPL把等值关联分为外键关联和主键关联。外键关联是指用一个表的非主键字段,去关联另一个表的主键,前者称为事实表,后者称为维表,两个表是多对一的关系,比如订单表和客户表。主键关联是指用一个表的主键关联另一个表的主键或部分主键,比如客户表和 VIP 客户表(一对一)、订单表和订单明细表(一对多)。


这两类 JOIN 都涉及到主键,如果充分利用这个特征采用不同的算法,就可以实现高性能的实时关联了。


不过很遗憾,SQL 对 JOIN 的定义并不涉及主键,只是两个表做笛卡尔积后再按某种条件过滤。这个定义很简单也很宽泛,几乎可以描述一切。但是,如果严格按这个定义去实现 JOIN,理论上没办法在计算时利用主键的特征来提高性能,只能是工程上做些有限的优化,在情况较复杂时(表多且层次多)经常无效。


SPL 改变了 JOIN 的定义,针对这两类 JOIN 分别处理,就可以利用主键的特征来减少运算量,从而提高计算性能。


外键关联


和SQL不同,SPL中明确地区分了维表和事实表。BI系统中的维表都通常不大,可以事先读入内存建立索引,这样在关联时可以少计算一半的HASH值。


对于多层维表(维表还有维表的情况)还可以用外键地址化的技术做好预关联。即将维表(本表)的外键字段值转换成对应维表(外键表)记录的地址。这样被关联的维表数据可以直接用地址取出而不必再进行HASH值计算和比对,多层维表仅仅是多个按地址取值的时间,和单层维表时的关联性能基本相当。


类似的,如果事实表也不大可以全部读入内存时,也可以通过预关联的方式解决事实表与维表的关联问题,提升关联效率。


预关联可以在系统启动时一次性读入并做好,以后直接使用即可。


当事实表较大无法全内存时,SPL 提供了外键序号化方法:将事实表中的外键字段值转换为维表对应记录的序号。关联计算时,用序号取出对应维表记录,这样可以获得和外键地址化类似的效果,同样能避免HASH值的计算和比对,大幅提升关联性能。


主键关联


有的事实表还有明细表,比如订单和订单明细,二者通过主键和部分主键进行关联,前者作为主表后者作为子表(还有通过全部主键关联的称为同维表,可以看做主子表的特例)。主子表都是事实表,涉及的数据量都比较大。


SPL为此采用了有序归并方法:预先将外存表按照主键有序存储,关联时顺序取出数据做归并,不需要产生临时缓存,只用很小的内存就可以完成计算。而SQL采用的HASH分堆算法复杂度较高,不仅要计算HASH值进行对比,还会产生临时缓存的读写动作,运算性能很差。


HASH 分堆技术实现并行困难,多线程要同时向某个分堆缓存数据,造成共享资源冲突;某个分堆关联时又会消费大量内存,无法实施较大的并行数量。而有序归则易于分段并行。数据有序时,子表就可以根据主表键值进行同步对齐分段以保证正确性,无需缓存,且因为占用内存很少可以采用较大的并行数,从而获得更高性能。


预先排序的成本虽高,但是一次性做好即可,以后就总能使用归并算法实现 JOIN,性能可以提高很多。同时,SPL 也提供了在有追加数据时仍然保持数据整体有序的方案。


对于主子表关联SPL还可以采用更有效的存储形式将主子表一体化存储,子表作为主表的集合字段,其取值是由与该主表数据相关的多条子表记录构成。这相当于预先实现了关联,再计算时直接取数计算即可,不需要比对,存储量也更少,性能更高。


存储机制


高性能离不开有效的存储。SPL也提供了列式存储,在BI计算中可以大幅降低数据读取量以提升读取效率。SPL列存采用了独有的倍增分段技术,相对传统列存分块并行方案要在很大数据量时(否则并行会受到限制)才会发挥优势不同,这个技术可以使SPL列存在数据量不很大时也能获得良好的并行分段效果,充分发挥并行优势。


SPL还提供了针对数据类型的优化机制,可以显著提升多维分析中的切片运算性能。比如将枚举型维度转换成整数,在查询时将切片条件转换成布尔值构成的对位序列,在比较时就可以直接从序列指定位置取出切片判断结果。还有将多个标签维度(取值是或否的维度,这种维度在多维分析中大量存在)存储在一个整数字段中的标签位维度技术(一个整数字段可以存储16个标签),不仅大幅减少存储量,在计算时还可以针对多个标签同时做按位计算从而大幅提升计算性能。


有了这些高效机制以后,我们就可以在BI分析中不再使用宽表,转而基于SPL存储和算法做实时关联,性能比宽表还更高(没有冗余数据读取量更小,更快)。


不过,只有这些还不够,SPL原生语法还不适合BI前端直接访问,这就需要适合的语义转换技术,通过适合的方式将用户操作转换成SPL语法进行查询。


这就需要DQL了。


DQL:关联描述技术


DQL是SPL之上的语义层构建工具,在这一层完成对于SPL数据关联关系的描述(建模)再为上层应用服务。即将SPL存储映射成DQL表,再基于表来描述数据关联关系。



通过对数据表关系描述以后形成了一种以维度为中心的总线式结构(不同于E-R图中的网状结构),中间是维度,表与表之间不直接相关都通过维度过渡。



基于这种结构下的关联查询(DQL语句)会很好表达。比如要根据订单表(orders)、客户表(customer)、销售员表(employee)以及城市表(city)查询:本年度华东的销售人员,在全国各销售区的销售额


用SQL写起来是这样的:


SELECT
ct1.area,o.emp_id,sum(o.amount) somt
FROM
orders o
JOIN customer c ON o.cus_id = c.cus_id
JOIN city ct1 ON c.city_id = ct1.city_id
JOIN employee e ON o.emp_id = e.emp_id
JOIN city ct2 ON e.city_id = ct2.city_id
WHERE
ct2.area = 'east' AND year(o.order_date)= 2022
GROUP BY
ct1.area, o.emp_id

多个表关联要JOIN多次,同一个地区表要反复关联两次才能查到销售员和客户的所在区域,对于这种情况BI前端表达起来会很吃力,如果将关联开放出来,用户又很难理解。


那么DQL是怎么处理的呢?


DQL写法:


SELECT
cus_id.city_id.area,emp_id,sum(amount) somt
FROM
orders
WHERE
emp_id.city_id.area == "east" AND year(order_date)== 2022
BY
cus_id.city_id.area,emp_id

DQL不需要JOIN多个表,只基于orders单表查询就可以了,外键指向表的字段当成属性直接使用,有多少层都可以引用下去,很好表达。像查询客户所在地区通过cus_id.city_id.area一直写下去就可以了,这样就消除了关联,将多表关联查询转化成单表查询。


更进一步,我们再基于DQL开发BI前端界面就很容易,比如可以做成这样:



用树结构分多级表达多层维表关联,这样的多维分析页面不仅容易开发,普通业务用户使用时也很容易理解,这就是DQL的效力。


总结一下,宽表的目的是为了解决BI查询性能和前端工程实现问题,而宽表会带来数据冗余和灵活性差等问题。通过SPL的实时关联技术与高效存储可以解决性能问题,而且性能比宽表更高,同时不存在数据冗余,存储空间也更小(压缩);DQL构建的语义层解决了多维分析前端工程的实现问题,让实时关联成为可能,,灵活性更高(不再局限于宽表的按需建模),界面也更容易实现,应用范围更广。


SPL+DQL继承(超越)宽表的优点同时改善其缺点,这才是BI该有的样子。


SPL资料


收起阅读 »

IDEA建议:不要在字段上使用@Autowire了!

在使用IDEA写Spring相关的项目的时候,在字段上使用@Autowired注解时,总是会有一个波浪线提示:Field injection is not recommended. 纳尼?我天天用,咋就不建议了,今天就来一探究竟。 众所周知,在Spring里...
继续阅读 »

在使用IDEA写Spring相关的项目的时候,在字段上使用@Autowired注解时,总是会有一个波浪线提示:Field injection is not recommended. 纳尼?我天天用,咋就不建议了,今天就来一探究竟。



众所周知,在Spring里面有三种可选的注入方式:构造器注入、Setter方法注入、Field注入,我们先来看下这三种注入方式的使用场景。


构造器注入


如下所示,使用构造器注入,可以将属性字段设置为final,在Aservice进行实例化时,BService对象必须得提前初始化完成,所以使用构造器注入,能够保证被注入的对象一定不为null。构造器注入适用于对象之间强依赖的场景,但是无法解决的循环依赖问题(因为必须互相依赖对方初始化完成,当然会产生冲突无法解决)。关于循环依赖,推荐阿里的一篇文章 一文详解Spring Bean循环依赖


@Service
public class AService {
   private final BService bService;

   @Autowired  //spring framework 4.3之后可以不用在构造方法上标注@Autowired
   public AService(BService bService) {
       this.bService = bService;
  }
}

Setter 方法注入


使用Setter方法进行注入时,Spring会在执行默认的无参构造函数实例化Bean对象之后,调用Setter方法来注入依赖。使用Setter方法注入可以将 required 属性设置为 false,表示若注入的Bean对象不存在,直接跳过注入,不会报错。


@Service
public class AService {
   private  BService bService;

   @Autowired(required = false)
   public void setbService(BService bService) {
       this.bService = bService;
  }
}

Field注入


一眼看去,Field注入简洁美观,被大家普遍大量使用。Spring容器会在对象实例化完成之后,通过反射设置需要注入的的字段。


@Service
public class AService {
   @Autowired
   private  BService bService;
}

为什么IDEA不推荐使用Field注入


经查阅各方资料,我找到了如下几个比较重要的原因:



  • 可能导致空指针异常:如果创建对象不使用Spring容器,而是直接使用无参构造方法new一个对象,此时使用注入的对象会导致空指针。

  • 不能使用final修饰字段:不使用final修饰,会导致类的依赖可变,进而可能会导致一些不可预料的异常。通常情况下,此时可以使用构造方法注入来声明强制依赖的Bean,使用Setter方法注入来声明可选依赖的Bean。

  • 可能更容易违反单一职责原则:个人认为这点是一个很重要的原因。因为使用字段注入可以很轻松的在类上加入各种依赖,进而导致类的职责过多,但是往往开发者对此不能轻易察觉。而如果使用构造方法注入,当构造方法的参数过多时,就会提醒你,你该重构这个类了。

  • 不利于写单元测试:在单元测试中,使用Field注入,必须使用反射的方式来Mock依赖对象。


那么替代方案是什么呢?其实上面已经提到了,当我们的类有强依赖于其他Bean时,使用构造方法注入;可选依赖时,使用Setter方法注入(需要自己处理可能出现的引用对象不存在的情况)。


Spring官方的态度


Spring 官方文档在依赖注入这一节其实没有讨论字段注入这种方式,重点比较了构造方法注入和Setter注入。可以看到Spring团队强推的还是构造方法注入


构造方法注入还是Setter注入


总结


在Spring中使用依赖注入时,首选构造方法注入,虽然其无法解决循环依赖问题,但是当出现循环依赖时,首选应该考虑的是是否代码结构设计出现问题了,当然,也不排除必须要循环依赖的场景,此时字段注入也有用武之地。


最后想说的是,平时在使用IDEA的过程中,可能会有一些下划线或飘黄提醒,如果多细心观察,可以学习到很多他人已经总结好的最佳实践经验,有助于自己代码功底的提升,共勉!


参考文献:


Spring 官方文档关于依赖注入: docs.spring.io/spring-fram…


StackOverFlow关于避免使用字段注入的讨论:stackoverflow.com/questi

ons/3…

收起阅读 »

怎么做登录(单点登录)功能?

登陆是系统最基础的功能之一。这么长时间了,一直在写业务,这个基础功能反而没怎么好好研究,都忘差不多了。今天没事儿就来撸一下。 以目前在接触和学习的一个开源系统为例,来分析一下登陆该怎么做。代码的话我就直接从里面CV了。 简单上个图(有水印。因为穷所以没开会员...
继续阅读 »

登陆是系统最基础的功能之一。这么长时间了,一直在写业务,这个基础功能反而没怎么好好研究,都忘差不多了。今天没事儿就来撸一下。


以目前在接触和学习的一个开源系统为例,来分析一下登陆该怎么做。代码的话我就直接从里面CV了。



简单上个图(有水印。因为穷所以没开会员)


怎么做登陆(单点登陆)?.png


先分析下登陆要做啥



首先,搞清楚要做什么。


登陆了,系统就知道这是谁,他有什么权限,可以给他开放些什么业务功能,他能看到些什么菜单?。。。这是这个功能的目的和存在的意义。



怎么落实?



怎么实现它?用什么实现?




我们的项目是Springboot + Vue前后端分离类型的。


选择用token + redis 实现,权限的话用SpringSecurity来做。




前后端分离避不开的一个问题就是单点登陆,单点登陆咱们有很多实现方式:CAS中央认证、JWT、token等,咱们这种方式其实本身就是基于token的一个单点登陆的实现方案。


单点登陆我们改天整理一篇OAuth2.0的实现方式,今天不搞这个。



上代码



概念这个东西越说越玄。咱们直接上代码吧。



接口:

@PostMapping("/login")
public AjaxResult login(@RequestBody LoginBody loginBody)
{
   AjaxResult ajax = AjaxResult.success();
   // 生成令牌
   //用户名、密码、验证码、uuid
   String token = loginService.login(loginBody.getUsername(), loginBody.getPassword(), loginBody.getCode(),
                                     loginBody.getUuid());
   ajax.put(Constants.TOKEN, token);
   return ajax;
}


用户信息验证交给SpringSecurity



/**
* 登录验证
*/

public String login(String username, String password, String code, String uuid)
{
   // 验证码开关,顺便说一下,系统配置相关的开关之类都缓存在redis里,系统启动的时候加载进来的。这一块儿的代码就不贴出来了
   boolean captchaEnabled = configService.selectCaptchaEnabled();
   if (captchaEnabled)
  {
       //uuid是验证码的redis key,登陆页加载的时候验证码生成接口返回的
       validateCaptcha(username, code, uuid);
  }
   // 用户验证 -- SpringSecurity
   Authentication authentication = null;
   try
  {
       UsernamePasswordAuthenticationToken authenticationToken = new UsernamePasswordAuthenticationToken(username, password);
       AuthenticationContextHolder.setContext(authenticationToken);
       // 该方法会去调用UserDetailsServiceImpl.loadUserByUsername。
       //
       authentication = authenticationManager.authenticate(authenticationToken);
  }
   catch (Exception e)
  {
       if (e instanceof BadCredentialsException)
      {
           AsyncManager.me().execute(AsyncFactory.recordLogininfor(username, Constants.LOGIN_FAIL, MessageUtils.message("user.password.not.match")));
           throw new UserPasswordNotMatchException();
      }
       else
      {
           AsyncManager.me().execute(AsyncFactory.recordLogininfor(username, Constants.LOGIN_FAIL, e.getMessage()));
           throw new ServiceException(e.getMessage());
      }
  }
   finally
  {
       AuthenticationContextHolder.clearContext();
  }
   AsyncManager.me().execute(AsyncFactory.recordLogininfor(username, Constants.LOGIN_SUCCESS, MessageUtils.message("user.login.success")));
   LoginUser loginUser = (LoginUser) authentication.getPrincipal();
   recordLoginInfo(loginUser.getUserId());
   // 生成token
   return tokenService.createToken(loginUser);
}

把校验验证码的部分贴出来,看看大概的逻辑(这个代码封装得太碎了。。。没全整出来)

/**
* 校验验证码
*/

public void validateCaptcha(String username, String code, String uuid)
{
   //uuid是验证码的redis key
   String verifyKey = CacheConstants.CAPTCHA_CODE_KEY + StringUtils.nvl(uuid, ""); //String CAPTCHA_CODE_KEY = "captcha_codes:";
   String captcha = redisCache.getCacheObject(verifyKey);
   redisCache.deleteObject(verifyKey);
   if (captcha == null)
  {
       AsyncManager.me().execute(AsyncFactory.recordLogininfor(username, Constants.LOGIN_FAIL, MessageUtils.message("user.jcaptcha.expire")));
       throw new CaptchaExpireException();
  }
   if (!code.equalsIgnoreCase(captcha))
  {
       AsyncManager.me().execute(AsyncFactory.recordLogininfor(username, Constants.LOGIN_FAIL, MessageUtils.message("user.jcaptcha.error")));
       throw new CaptchaException();
  }
}

token生成部分


这里,token



/**
* 创建令牌
*/

public String createToken(LoginUser loginUser)
{
   String token = IdUtils.fastUUID();
   loginUser.setToken(token);
   setUserAgent(loginUser);
   refreshToken(loginUser);

   Map<String, Object> claims = new HashMap<>();
   claims.put(Constants.LOGIN_USER_KEY, token);
   return createToken(claims);
}

刷新token

/**
* 刷新令牌
*/

public void refreshToken(LoginUser loginUser)
{
   loginUser.setLoginTime(System.currentTimeMillis());
   loginUser.setExpireTime(loginUser.getLoginTime() + expireTime * MILLIS_MINUTE);
   // 根据uuid将loginUser缓存
   String userKey = getTokenKey(loginUser.getToken());
   redisCache.setCacheObject(userKey, loginUser, expireTime, TimeUnit.MINUTES);
}

验证token

/**
* 验证令牌
*/

public void verifyToken(LoginUser loginUser)
{
   long expireTime = loginUser.getExpireTime();
   long currentTime = System.currentTimeMillis();
   if (expireTime - currentTime <= MILLIS_MINUTE_TEN)
  {
       refreshToken(loginUser);
  }
}


注意这里返回给前端的token其实用JWT加密了一下,SpringSecurity的过滤器里有进行解析。


另外,鉴权时会刷新token有效期,看下面第二个代码块的注释。



@Override
protected void configure(HttpSecurity httpSecurity) throws Exception
{
   //...无关的代码删了
   httpSecurity.addFilterBefore(corsFilter, JwtAuthenticationTokenFilter.class);
}

@Component
public class JwtAuthenticationTokenFilter extends OncePerRequestFilter
{
   @Autowired
   private TokenService tokenService;

   @Override
   protected void doFilterInternal(HttpServletRequest request, HttpServletResponse response, FilterChain chain)
       throws ServletException, IOException
  {
       LoginUser loginUser = tokenService.getLoginUser(request);
       if (StringUtils.isNotNull(loginUser) && StringUtils.isNull(SecurityUtils.getAuthentication()))
      {
           //刷新token有效期
           tokenService.verifyToken(loginUser);
           UsernamePasswordAuthenticationToken authenticationToken = new UsernamePasswordAuthenticationToken(loginUser, null, loginUser.getAuthorities());
           authenticationToken.setDetails(new WebAuthenticationDetailsSource().buildDetails(request));
           SecurityContextHolder.getContext().setAuthentication(authenticationToken);
      }
       chain.doFilter(request, response);
  }
}


这个登陆方案里用了token + redis,还有JWT,其实用哪一种方案都可以独立实现,并且两种方案都可以用来做单点登陆。


这里JWT只是起到个加密的作用,无它。


作者:harhar
来源:juejin.cn/post/7184266088652210231

收起阅读 »

项目使用redis做缓存,除了击穿,穿透,雪崩,我们还要考虑哪些!!!

大家好,我是小趴菜,相信大家在项目中都是用过redis,比如用来做一个分布式缓存来提高程序的性能 当使用到了redis来做缓存,那么我们就必须要考虑几个问题,除了缓存击穿,缓存穿透,缓存雪崩,那么我们还需要考虑哪些问题呢? 高并发写 对于高并发情况下,比如直播...
继续阅读 »

大家好,我是小趴菜,相信大家在项目中都是用过redis,比如用来做一个分布式缓存来提高程序的性能


当使用到了redis来做缓存,那么我们就必须要考虑几个问题,除了缓存击穿,缓存穿透,缓存雪崩,那么我们还需要考虑哪些问题呢?


高并发写


对于高并发情况下,比如直播下单,直播下单跟秒杀不一样,秒杀是有限定的库存,但是直播下单是可以一直下的,而且是下单越多越好的。比如说我们的库存有10万个,如果这个商品特别火,那么可能一瞬间流量就全都打过来了。虽然我们的库存是提前放到redis中,并不会去访问MySql,那么这时候所有的请求都会打到redis中。


image.png


表面看起来确实没问题,但是你有没有想过,即使你做了集群,但是访问的还是只有一个key,那么最终还是会落到同一台redis服务器上。这时候key所在的那台redid就会承载所有的请求,而集群其它机器根本就不会访问到,这时候你确定你的redis能扛住吗???如果这时候读的请求很多,你觉得你的redis能扛住吗?


所以对于这种情况我们可以采用数据分片的解决方案,比如你有10万个库存,那么这时候可以搞10台redis服务器,每台redis服务器上放1万个库存,这时候我们可以通过用户的ID进行取模,然后将用户流量分摊到10台redis服务器上


image.png


所以对于热点数据来说,我们要做的就是将流量进行分摊,让多台redis分摊承载一部分流量,尤其是对于这种高并发写来讲


高并发读


使用redis做缓存可以说是我们项目中使用到的最多的了,可能由于平时访问量不高,所以我们的redis服务完全可以承载这么多用户的请求


但是我们可以想一下,一次reids的读请求就是一次的网络IO,如果是1万次,10万次呢?那就是10万次的网络IO,这个问题我们在工作中是不得不考虑的。因为这个开销其实是很大的,如果访问量太大,redis很有可能就会出现一些问题


image.png


我们可以使用本地缓存+redis分布式缓存来解决这个问题,对于一些热点读数据,更新不大的数据,我们可以将数据保存在本地缓存中,比如Guava等工具类,当然本地缓存的过期时间要设置的短一点,比如5秒左右,这时候可以让大部分的请求都落在本地缓存,不用去访问redis


如果这时候本地缓存没有,那么再去访问redis,然后将redis中的数据再放入本地缓存中即可


加入了多级缓存,那么就会有相应的问题,比如多级缓存如何保证数据一致性


总结


没有完美的方案,只有最适合自己的方案,当你决定采用了某种技术方案的时候,那么势必会带来一些其它你需要考虑的问题,redis也一样,虽然我们使用它来做缓存可以提高我们程序的性能,但是在使用redis做缓存的时候,有些情况我们也是需要考虑到的,对于用户访问量不高来说,我们直接使用redis完全是够用的,但是我们可以假设一下,如果在高并发场景下,我们的方案是否能够支持我们的业务


作者:我是小趴菜
来源:juejin.cn/post/7264475859659079736
收起阅读 »

聊聊分片技术

今天来聊一聊开发中一个比较常见的概念“分片”技术。这个概念听起来好像是在讲切西瓜,但其实不是!它是指将大型数据或者任务分成小块处理的技术。 就像吃面条一样,太长了不好吃,我们要把它们分成小段,才能更好地享受美味。所以,如果你想让你的程序更加高效,不妨考虑一下...
继续阅读 »

今天来聊一聊开发中一个比较常见的概念“分片”技术。这个概念听起来好像是在讲切西瓜,但其实不是!它是指将大型数据或者任务分成小块处理的技术。


就像吃面条一样,太长了不好吃,我们要把它们分成小段,才能更好地享受美味。所以,如果你想让你的程序更加高效,不妨考虑一下“分片”技术!


1. “分片”技术定义


在计算机领域中,“分片”(sharding)是一种 把大型数据集分割成更小的、更容易管理的数据块的技术


一个经典的例子是数据库分片。


想象一家巨大的电商公司,拥有数百万甚至数十亿的用户,每天进行大量的交易和数据处理。这些数据包括用户信息、订单记录、支付信息等。传统的数据库系统可能无法应对如此巨大的数据量和高并发请求。


在这种情况下,公司可以采用数据库分片技术来解决问题。数据库分片是将一个庞大的数据库拆分成更小的、独立的片(shard)。


每个片都包含数据库的一部分数据,类似于一个小型的数据库。每个片都可以在不同的服务器上独立运行,这样就可以将数据负载分散到多个服务器上,提高了整个系统的性能和可伸缩性。


所以,分片技术提高了数据库的扩展性和吞吐量。


2. 分片技术应用:日志分片


好了,我们已经了解了分片技术的概念和它能够解决的问题。但是,你知道吗?分片技术还有一个非常有趣的应用场景——日志分片。


一个更加具体的应用场景是,手机端日志的记录、存储和上传


在日志分片中,原始的日志文件被分成多个较小的片段,每个片段包含一定数量的日志条目。这样做的好处是可以提高日志的读写效率和处理速度。当我们需要查找特定时间段的日志或者进行日志分析时,只需要处理相应的日志分片,而不需要处理整个大型日志文件。


日志分片还可以帮助我们更好地管理日志文件的存储空间。由于日志文件通常会不断增长,如果不进行分片,日志文件的大小会越来越大,占用大量的存储空间。而通过将日志文件分片存储,可以将存储空间的使用分散到多个较小的文件中,更加灵活地管理和控制存储空间的使用。


所以,分片技术不仅可以让你的日志更高效,还可以让你的存储更优雅哦!


总结一下,在手机端对日志进行分片可以带来如下的好处:





  • 减少数据传输量: 手机端往往有限的网络带宽和数据流量。通过将日志分片,只需要发送关键信息或重要的日志片段,而不是整个日志文件,从而减少了数据传输量,降低了网络负载。





  • 节省存储空间: 手机设备通常有有限的存储空间。通过分片日志,可以只保留最重要的日志片段,避免将大量无用的日志信息保存在设备上,节省存储空间。





  • 提高性能: 小型移动设备的计算能力有限,处理大量的日志数据可能会导致应用程序性能下降。日志分片可以减轻应用程序对处理和存储日志的负担,从而提高应用程序的性能和响应速度。





  • 快速故障排查: 在开发和调试阶段,日志是重要的调试工具。通过分片日志,可以快速获取关键信息,帮助开发者定位和解决问题,而不需要浏览整个日志文件。





  • 节省电池寿命: 日志记录可能涉及磁盘或网络活动,这些活动对手机的电池寿命有一定影响。分片日志可以减少不必要的磁盘写入和网络通信,有助于节省电池能量。





  • 安全性和隐私保护: 对于敏感数据或用户隐私相关的日志,分片可以帮助隔离和保护这些数据,确保只有授权的人员可以访问敏感信息。





  • 容错和稳定性: 如果手机应用程序崩溃或出现问题,分片日志可以确保已经记录的日志信息不会因为应用程序的异常终止而丢失,有助于在重启后快速恢复。




3.日志分片常见的实现方式


常见的日志分片实现方式有 3 种,一种是基于时间的分片,一种是基于大小的分片,还有一种是基于关键事件的分片


3.1 按时间分片


将日志按照时间周期进行分片,例如每天、每小时或每分钟生成一个新的日志文件。伪代码如下:


import logging
from datetime import datetime

# 配置日志记录
logging.basicConfig(filename=f"log_{datetime.now().strftime('%Y%m%d%H%M%S')}.log",
                    level=logging.DEBUG,
                    format='%(asctime)s - %(levelname)s - %(message)s')

# 记录日志
logging.debug("This is a debug message.")
logging.info("This is an info message.")
logging.warning("This is a warning message.")
logging.error("This is an error message.")

3.2 按文件大小分片


将日志按照文件大小进行分片,当达到预设的大小后,生成一个新的日志文件。伪代码如下:


import logging
import os

# 设置日志文件的最大大小为5MB
max_log_size = 5 * 1024 * 1024

# 配置日志记录
log_file = "log.log"
logging.basicConfig(filename=log_file,
                    level=logging.DEBUG,
                    format='%(asctime)s - %(levelname)s - %(message)s')

# 获取当前日志文件大小
def get_log_file_size(file_path):
    return os.path.getsize(file_path)

# 检查日志文件大小,超过最大大小则创建新的日志文件
def check_log_file_size():
    if get_log_file_size(log_file) > max_log_size:
        logging.shutdown()
        os.rename(log_file, f"log_{datetime.now().strftime('%Y%m%d%H%M%S')}.log")
        logging.basicConfig(filename=log_file,
                            level=logging.DEBUG,
                            format='%(asctime)s - %(levelname)s - %(message)s')

# 记录日志
logging.debug("This is a debug message.")
logging.info("This is an info message.")
logging.warning("This is a warning message.")
logging.error("This is an error message.")

# 检查并切割日志文件
check_log_file_size()

3.3 按关键事件分片


将日志按照特定的关键事件进行分片,例如每次启动应用程序或者每次用户登录都生成一个新的日志文件。伪代码如下:


import logging

# 配置日志记录
logging.basicConfig(filename="log.log",
                    level=logging.DEBUG,
                    format='%(asctime)s - %(levelname)s - %(message)s')

# 记录日志
logging.debug("This is a debug message.")
logging.info("This is an info message.")
logging.warning("This is a warning message.")
logging.error("This is an error message.")

# 在关键事件处切割日志
def split_log_on_critical_event():
    logging.shutdown()
    new_log_file = f"log_{datetime.now().strftime('%Y%m%d%H%M%S')}.log"
    os.rename("log.log", new_log_file)
    logging.basicConfig(filename="log.log",
                        level=logging.DEBUG,
                        format='%(asctime)s - %(levelname)s - %(message)s')

# 在关键事件处调用切割函数
split_log_on_critical_event()

这些只是日志分片的简单示例,实际应用中,可能还需要考虑并发写入的处理。不同的应用场景和需求可能会有不同的实现方式,但上述示例可以作为日志分片的入门参考。


4.不同日志分片方式的优缺点


每种日志分片方式都有其优点和缺点,实际工作中选择哪种方式取决于项目需求、系统规模和性能要求。下面是它们各自的优缺点和选择建议:


4.1 按时间分片


优点:





  • 日志文件按时间周期自动切割,管理简单,易于维护和查找。



  • 可以按照日期或时间段快速定位特定时间范围的日志,方便问题排查和分析。


缺点:





  • 如果日志记录非常频繁,生成的日志文件可能会较多,占用较多的磁盘空间。


选择建议:





  • 适用于需要按照时间段来管理和查找日志的场景,如每天生成一个新的日志文件,适合于长期存档和快速回溯日志的需求。


4.2 按文件大小分片


优点:





  • 可以控制单个日志文件的大小,避免单个日志文件过大,减少磁盘空间占用。



  • 可以根据日志记录频率和系统负载自动调整滚动策略,灵活性较高。


缺点:





  • 按文件大小滚动的切割可能不是按照时间周期进行,导致在某个时间段内的日志记录可能分布在多个文件中,查找时稍显不便。


选择建议:





  • 适用于需要控制单个日志文件大小、灵活滚动日志的场景,可以根据日志记录量进行动态调整滚动策略。


4.3 按关键事件分片


优点:





  • 可以根据特定的关键事件或条件生成新的日志文件,使得日志按照业务操作或系统事件进行切割,更符合实际需求。


缺点:





  • 需要在代码中显式触发滚动操作,可能会增加一定的复杂性和代码维护成本。


选择建议:





  • 适用于需要根据特定事件进行日志切割的场景,如应用程序重启、用户登录等。


在实际工作中,通常需要综合考虑项目的实际情况来选择合适的日志分片方式。可以考虑以下因素:





  • 日志记录频率和数据量: 如果日志记录频率很高且数据量大,可能需要按文件大小分片来避免单个日志文件过大。





  • 日志存储要求: 如果需要长期存档日志并快速查找特定时间范围的日志,按时间分片可能更适合。





  • 日志文件管理: 如果希望日志文件按照特定的事件或条件进行切割,按关键事件分片可能更合适。





  • 磁盘空间和性能: 考虑日志文件大小对磁盘空间的占用和日志滚动对系统性能的影响。




所以,实际开发中通常需要根据项目的具体需求和系统规模,选择合适的日志分片方式。


在日志框架中通常可以通过配置来选择适合的滚动策略,也可以根据实际需求自定义一种滚动策略。


作者:有余同学
来源:mdnice.com/writing/e97842c4d3734ad8b8a1dd587342d985
收起阅读 »

Nginx 体系化之虚拟主机分类及配置实现

Nginx,这款备受推崇的高性能 Web 服务器,以其强大的性能和灵活的配置而广受欢迎。在实际应用中,虚拟主机是一项重要的功能,允许我们在单个服务器上托管多个网站。本文将深入探讨 Nginx 虚拟主机的分类和配置实现,帮助您构建一个高效多站点托管平台。 虚拟主...
继续阅读 »

Nginx,这款备受推崇的高性能 Web 服务器,以其强大的性能和灵活的配置而广受欢迎。在实际应用中,虚拟主机是一项重要的功能,允许我们在单个服务器上托管多个网站。本文将深入探讨 Nginx 虚拟主机的分类和配置实现,帮助您构建一个高效多站点托管平台。


虚拟主机的分类


虚拟主机是一种将单个服务器划分成多个独立的网站托管环境的技术。Nginx 支持三种主要类型的虚拟主机:


基于 IP 地址的虚拟主机(常用)


这种类型的虚拟主机是通过不同的 IP 地址来区分不同的网站。每个 IP 地址绑定到一个特定的网站或应用程序。这种虚拟主机适用于需要在同一服务器上为每个网站提供独立的资源和配置的场景。


基于域名的虚拟主机(常用)


基于域名的虚拟主机是根据不同的域名来区分不同的网站。多个域名可以共享同一个 IP 地址,并通过 Nginx 的配置来分发流量到正确的网站。这种虚拟主机适用于在单个服务器上托管多个域名或子域名的情况。


基于多端口的虚拟主机(不常用)


基于多端口的虚拟主机是一种将单个服务器上的多个网站隔离开来的方式。每个网站使用不同的端口号进行访问,从而实现隔离。这种方法特别适用于那些无法使用不同域名或 IP 地址的情况,或者需要在同一服务器上快速托管多个网站的需求。


虚拟主机配置实现


配置文件结构


Nginx 的配置文件通常位于 /etc/nginx/nginx.conf,在该文件中可以找到 http 块。在 http 块内,可以配置全局设置和默认行为。每个虚拟主机都需要一个 server 块来定义其配置。
使用 include 指令简化配置文件,通常情况下将基于 server 的配置文件放到一个文件夹中,由 include 引用即可


http{
include /usr/nginx/server/*.conf # 表示引用 server 下的配置文件
}

基于 IP 地址的虚拟主机实现


创建 IP 配置文件


/usr/nginx/server/ 中创建一个新的配置文件,例如 /usr/nginx/server/ip.conf


配置 IP


在新的配置文件中,为每个网站创建一个 server 块,并在其中指定监听的端口号和网站的根目录。例如:


# 基于 192.168.1.10 代理到百度网站
server {
listen 192.168.1.10:80;
server_name http://www.baidu.com;
root /var/www/baidu;
index index.html;
}
# 基于 192.168.1.11:80 代理到 bing 网站
server {
listen 192.168.1.11:80;
server_name http://www.bing.com;
root /var/www/bing;
index index.html;
}

最佳场景实践



  1. 资源隔离: 每个网站都有独立的 IP 地址、资源和配置,避免了资源冲突和相互影响。

  2. 安全性提升: 基于 IP 地址的虚拟主机可以增强安全性,减少不同网站之间的潜在风险。

  3. 独立访问: 每个网站都有独立的 IP 地址,可以实现独立的访问控制和限制。

  4. 多租户托管: 基于 IP 地址的虚拟主机适用于多租户托管场景,为不同客户提供独立环境。


基于域名的虚拟主机实现


创建 IP 配置文件


/usr/nginx/server/ 中创建一个新的配置文件,例如 /usr/nginx/server/domain.conf


配置 IP


在新的配置文件中,为每个网站创建一个 server 块,并在其中指定监听的域名和网站的根目录。例如:


# 通过 http://www.baidu.com 转发到 80
server {
listen 80;
server_name http://www.baidu.com;
root /var/www/baidu;
index index.html;
}

# 通过 http://www.bing.com 转发到 80
server {
listen 80;
server_name http://www.bing.com;
root /var/www/bing;
index index.html;
}

最佳场景实践


基于域名的虚拟主机为多站点托管提供了高度的定制性和灵活性:



  1. 品牌差异化: 不同域名的虚拟主机允许您为不同品牌或应用提供独立的网站定制,提升用户体验。

  2. 定向流量: 基于域名的虚拟主机可以将特定域名的流量引导至相应的网站,实现定向流量管理。

  3. 子域名托管: 可以将不同子域名配置为独立的虚拟主机,为多个应用或服务提供托管。

  4. SEO 优化: 每个域名的虚拟主机可以针对不同的关键词进行 SEO 优化,提升搜索引擎排名。


基于多端口的虚拟主机


创建多端口配置文件


/usr/nginx/server/ 中创建一个新的配置文件,例如 /usr/nginx/server/domain.conf


配置 IP


在新的配置文件中,为每个网站创建一个 server 块,并在其中指定监听的域名和网站的根目录。例如:


server {
listen 8081;
server_name http://www.baidu.com;
root /var/www/baidu;
index index.html;
}

server {
listen 8082;
server_name http://www.bing.com;
root /var/www/bing;
index index.html;
}

最佳场景实践


基于多端口的虚拟主机为多站点托管提供了更多的灵活性和选择:



  1. 快速设置: 使用多端口可以快速设置多个网站,适用于临时性或开发环境。

  2. 资源隔离: 每个网站都有独立的端口和配置,避免了资源冲突和相互干扰。

  3. 开发和测试: 多端口虚拟主机适用于开发和测试环境,每个开发者可以使用不同的端口进行开发和调试。

  4. 灰度发布: 基于多端口的虚拟主机可以实现灰度发布,逐步引导流量至新版本网站。


重载配置


在添加、修改或删除多端口虚拟主机配置后,使用以下命令重载 Nginx 配置,使更改生效:


nginx -s reload
作者:努力的IT小胖子
来源:juejin.cn/post/7263886796757483580

收起阅读 »

如果按代码量算工资,也许应该这样写

前言 假如有一天我们要按代码量来算工资,那怎样才能写出一手漂亮的代码,同时兼顾代码行数和实际意义呢? 要在增加代码量的同时提高代码质量和可维护性,能否做到呢? 答案当然是可以,这可难不倒我们这种摸鱼高手。 耐心看完,你一定有所收获。 正文 1. 实现更多的...
继续阅读 »

前言


假如有一天我们要按代码量来算工资,那怎样才能写出一手漂亮的代码,同时兼顾代码行数和实际意义呢?


要在增加代码量的同时提高代码质量和可维护性,能否做到呢?


答案当然是可以,这可难不倒我们这种摸鱼高手。


耐心看完,你一定有所收获。


giphy.gif


正文


1. 实现更多的接口:


给每一个方法都实现各种“无关痛痒”的接口,比如SerializableCloneable等,真正做到不影响使用的同时增加了相当数量的代码。


为了这些代码量,其中带来的性能损耗当然是可以忽略的。


public class ExampleClass implements Serializable, Comparable<ExampleClass>, Cloneable, AutoCloseable {

@Override
public int compareTo(ExampleClass other) {
// 比较逻辑
return 0;
}

// 实现 Serializable 接口的方法
private void writeObject(ObjectOutputStream out) throws IOException {
// 序列化逻辑
}

private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
// 反序列化逻辑
}

// 实现 Cloneable 接口的方法
@Override
public ExampleClass clone() throws CloneNotSupportedException {
// 复制对象逻辑
return (ExampleClass) super.clone();
}

// 实现 AutoCloseable 接口的方法
@Override
public void close() throws Exception {
// 关闭资源逻辑
}

}


除了示例中的SerializableComparableCloneableAutoCloseable,还有Iterable


2. 重写 equals 和 hashcode 方法


重写 equalshashCode 方法绝对是上上策,不仅增加了代码量,还为了让对象在相等性判断和散列存储时能更完美的工作,确保代码在处理对象相等性时更准确、更符合业务逻辑。


public class ExampleClass {
private String name;
private int age;

// 重写 equals 方法
@Override
public boolean equals(Object obj) {
if (this == obj) {
return true;
}

if (obj == null || getClass() != obj.getClass()) {
return false;
}

ExampleClass other = (ExampleClass) obj;
return this.age == other.age && Objects.equals(this.name, other.name);
}

// 重写 hashCode 方法
@Override
public int hashCode() {
return Objects.hash(name, age);
}
}


giphy (2).gif


3. 增加配置项和参数:


不要管能不能用上,梭哈就完了,问就是为了健壮性和拓展性。


public class AppConfig {
private int maxConnections;
private String serverUrl;
private boolean enableFeatureX;

// 新增配置项
private String emailTemplate;
private int maxRetries;
private boolean enableFeatureY;

// 写上构造函数和getter/setter
}

4. 增加监听回调:


给业务代码增加监听回调,比如执行前、执行中、执行后等各种Event,这里举个完整的例子。


比如创建个 EventListener ,负责监听特定类型的事件,事件源则是产生事件的对象。通过EventListener 在代码中增加执行前、执行中和执行后的事件。


首先,我们定义一个简单的事件类 Event


public class Event {
private String name;

public Event(String name) {
this.name = name;
}

public String getName() {
return name;
}
}

然后,我们定义一个监听器接口 EventListener


public interface EventListener {
void onEventStart(Event event);

void onEventInProgress(Event event);

void onEventEnd(Event event);
}

接下来,我们定义一个事件源类 EventSource,在执行某个业务方法时,触发事件通知:


public class EventSource {
private List<EventListener> listeners = new ArrayList<>();

public void addEventListener(EventListener listener) {
listeners.add(listener);
}

public void removeEventListener(EventListener listener) {
listeners.remove(listener);
}

public void businessMethod() {
Event event = new Event("BusinessEvent");

// 通知监听器:执行前事件
for (EventListener listener : listeners) {
listener.onEventStart(event);
}

// 模拟执行业务逻辑
System.out.println("Executing business method...");

// 通知监听器:执行中事件
for (EventListener listener : listeners) {
listener.onEventInProgress(event);
}

// 模拟执行业务逻辑
System.out.println("Continuing business method...");

// 通知监听器:执行后事件
for (EventListener listener : listeners) {
listener.onEventEnd(event);
}
}
}

现在,我们可以实现具体的监听器类,比如 BusinessEventListener,并在其中定义事件处理逻辑:


public class BusinessEventListener implements EventListener {
@Override
public void onEventStart(Event event) {
System.out.println("Event Start: " + event.getName());
}

@Override
public void onEventInProgress(Event event) {
System.out.println("Event In Progress: " + event.getName());
}

@Override
public void onEventEnd(Event event) {
System.out.println("Event End: " + event.getName());
}
}

最后,我们写个main函数来演示监听事件:


public class Main {
public static void main(String[] args) {
EventSource eventSource = new EventSource();
eventSource.addEventListener(new BusinessEventListener());

// 执行业务代码,并触发事件通知
eventSource.businessMethod();

// 移除监听器
eventSource.removeEventListener(businessEventListener);
}
}

如此这般那般,代码量猛增,还顺带实现了业务代码的流程监听。当然这只是最简陋的实现,真实环境肯定要比这个复杂的多。


5. 构建通用工具类:


同样的,甭管用不用的上,定义更多的方法,都是为了健壮性。


比如下面这个StringUtils,可以从ApacheCommons、SpringBoot的StringUtil或HuTool的StrUtil中拷贝更多的代码过来,美其名曰内部工具类。


public class StringUtils {
public static boolean isEmpty(String str) {
return str == null || str.trim().isEmpty();
}

public static boolean isBlank(String str) {
return str == null || str.trim().isEmpty();
}

// 新增方法:将字符串反转
public static String reverse(String str) {
if (str == null) {
return null;
}
return new StringBuilder(str).reverse().toString();
}

// 新增方法:判断字符串是否为整数
public static boolean isInteger(String str) {
try {
Integer.parseInt(str);
return true;
} catch (NumberFormatException e) {
return false;
}
}
}

6. 添加新的异常类型:


添加更多异常类型,对不同的业务抛出不同的异常,每种异常都要单独去处理


public class CustomException extends RuntimeException {
// 构造函数
public CustomException(String message) {
super(message);
}

// 新增异常类型
public static class NotFoundException extends CustomException {
public NotFoundException(String message) {
super(message);
}
}

public static class ValidationException extends CustomException {
public ValidationException(String message) {
super(message);
}
}
}

// 示例:添加不同类型的异常处理
public class ExceptionHandling {
public void process(int value) {
try {
if (value < 0) {
throw new IllegalArgumentException("Value cannot be negative");
} else if (value == 0) {
throw new ArithmeticException("Value cannot be zero");
} else {
// 正常处理逻辑
}
} catch (IllegalArgumentException e) {
// 异常处理逻辑
} catch (ArithmeticException e) {
// 异常处理逻辑
}
}
}


7. 实现更多设计模式:


在项目中运用更多设计模式,也不失为一种合理的方式,比如单例模式、工厂模式、策略模式、适配器模式等各种常用的设计模式。


比如下面这个单例,大大节省了内存空间,虽然它存在线程不安全等问题。


public class SingletonPattern {
// 单例模式
private static SingletonPattern instance;

private SingletonPattern() {
// 私有构造函数
}

public static SingletonPattern getInstance() {
if (instance == null) {
instance = new SingletonPattern();
}
return instance;
}

}

还有下面这个策略模式,能避免过多的if-else条件判断,降低代码的耦合性,代码的扩展和维护也变得更加容易。


// 策略接口
interface Strategy {
void doOperation(int num1, int num2);
}

// 具体策略实现类
class AdditionStrategy implements Strategy {
@Override
public void doOperation(int num1, int num2) {
int result = num1 + num2;
System.out.println("Addition result: " + result);
}
}

class SubtractionStrategy implements Strategy {
@Override
public void doOperation(int num1, int num2) {
int result = num1 - num2;
System.out.println("Subtraction result: " + result);
}
}

// 上下文类
class Context {
private Strategy strategy;

public Context(Strategy strategy) {
this.strategy = strategy;
}

public void executeStrategy(int num1, int num2) {
strategy.doOperation(num1, num2);
}
}

// 测试类
public class StrategyPattern {
public static void main(String[] args) {
int num1 = 10;
int num2 = 5;

// 使用加法策略
Context context = new Context(new AdditionStrategy());
context.executeStrategy(num1, num2);

// 使用减法策略
context = new Context(new SubtractionStrategy());
context.executeStrategy(num1, num2);
}
}

对比下面这段条件判断,高下立判。


public class Calculator {
public static void main(String[] args) {
int num1 = 10;
int num2 = 5;
String operation = "addition"; // 可以根据业务需求动态设置运算方式

if (operation.equals("addition")) {
int result = num1 + num2;
System.out.println("Addition result: " + result);
} else if (operation.equals("subtraction")) {
int result = num1 - num2;
System.out.println("Subtraction result: " + result);
} else if (operation.equals("multiplication")) {
int result = num1 * num2;
System.out.println("Multiplication result: " + result);
} else if (operation.equals("division")) {
int result = num1 / num2;
System.out.println("Division result: " + result);
} else {
System.out.println("Invalid operation");
}
}
}


8. 扩展注释和文档:


如果要增加代码量,写更多更全面的注释也不失为一种方式。


/**
* 这是一个示例类,用于展示增加代码数量的技巧和示例。
* 该类包含一个示例变量 value 和示例构造函数 ExampleClass(int value)。
* 通过示例方法 getValue() 和 setValue(int newValue),可以获取和设置 value 的值。
* 这些方法用于展示如何增加代码数量,但实际上并未实现实际的业务逻辑。
*/

public class ExampleClass {

// 示例变量
private int value;

/**
* 构造函数
*/

public ExampleClass(int value) {
this.value = value;
}

/**
* 获取示例变量 value 的值。
* @return 示范变量 value 的值
*/

public int getValue() {
return value;
}

/**
* 设置示例变量 value 的值。
* @param newValue 新的值,用于设置 value 的值。
*/

public void setValue(int newValue) {
this.value = newValue;
}
}

结语


哪怕是以代码量算工资,咱也得写出高质量的代码,合理合法合情的赚票子。


giphy (1).gif


作者:一只叫煤球的猫
来源:juejin.cn/post/7263760831052906552
收起阅读 »

看了我项目中的商品功能设计,同事也开始悄悄模仿了...

商品功能作为电商系统的核心功能,它的设计可谓是非常重要的。就算不是电商系统中,只要是涉及到需要交易物品的项目,商品功能都具有很好的参考价值。今天就以mall项目中的商品功能为例,来聊聊商品功能的设计与实现。 mall项目简介 这里还是简单介绍下mall项目吧...
继续阅读 »

商品功能作为电商系统的核心功能,它的设计可谓是非常重要的。就算不是电商系统中,只要是涉及到需要交易物品的项目,商品功能都具有很好的参考价值。今天就以mall项目中的商品功能为例,来聊聊商品功能的设计与实现。



mall项目简介


这里还是简单介绍下mall项目吧,mall项目是一套基于 SpringBoot + Vue + uni-app 的电商系统,目前在Github已有60K的Star,包括前台商城项目和后台管理系统,能支持完整的订单流程!涵盖商品、订单、购物车、权限、优惠券、会员等功能,功能很强大!



功能设计



首先我们来看下mall项目中商品功能的设计,主要包括商品管理、添加\编辑商品、商品分类、商品类型、品牌管理等功能,这里的功能同时涉及前台商城和后台管理系统。



商品管理


在mall项目的后台管理系统中,后台管理员可以对商品进行管理,比如添加、编辑、删除、上架等操作。



当商品上架完成后,前台会员在mall项目的前台商城的商品列表中就可以看到对应商品了。



添加/编辑商品


后台管理员在添加/编辑商品时,需要填写商品信息、商品促销、商品属性以及选择商品关联。



之后前台会员在前台商城的商品详情页中就可以查看到对应的商品信息了。



商品分类


后台管理员也可以对商品的分类进行添加、编辑、删除、查询等操作。



这样前台会员在前台商城中就可以按商品分类来筛选查看商品了。



商品类型


后台管理员可以对商品的类型属性进行设置,设置好之后在编辑商品时就可以进行商品属性、参数的设置了。



此时前台会员就可以在前台商城中选择对应属性的商品进行购买了。



品牌管理


后台管理员可以对商品的品牌进行添加、编辑、删除、查询等操作。



此时前台会员就可以在前台商城的品牌详情页中查看到品牌信息以及相关的商品了。



功能整理


对于商品模块的功能,我这里整理了一张思维导图方便大家查看,主要是整理了下有哪些功能以及功能需要涉及哪些字段。



数据库设计


根据我们的功能设计和整理好的思维导图,就可以进行数据库设计了,这里是mall项目商品模块的功能设计图。



接口设计


对于mall项目中商品模块的接口设计,大家可以参考项目的Swagger接口文档,以Pms开头的接口就是商品模块对应的接口。



总结


商品模块作为电商系统的核心功能,涉及到商品SKU和SPU的概念,是一个非常好的参考案例。如果你能掌握商品模块的设计,对于开发一些需要交易的系统来说,会有非常大的帮助!


项目源码地址


github.com/macroz

heng/…

收起阅读 »

getClass方法详解

getClass方法详解 在Java中,getClass()是Object类的一个方法,用于返回对象的运行时类(Runtime Class)。它的函数签名如下: public final Class<?> getC...
继续阅读 »

getClass方法详解


在Java中,getClass()是Object类的一个方法,用于返回对象的运行时类(Runtime Class)。它的函数签名如下:


public final Class<?> getClass()

getClass()方法返回一个Class对象,该对象表示调用该方法的对象的运行时类型。换句话说,它返回一个描述对象所属类的元数据的实例。


以下是关于getClass()方法的详解:





  1. 返回值类型:getClass()方法返回一个Class<?>类型的对象,这里的问号表示通配符,表示可以是任何类型的Class对象。





  2. 作用:getClass()方法用于获取对象的类信息,包括类的名称、父类、接口信息等。





  3. 运行时类型:getClass()方法返回的是调用对象的运行时类型,而不是对象的声明类型。也就是说,如果对象的类型发生了变化(向上转型或者子类重写父类方法),getClass()返回的是实际运行时类型。





  4. 示例代码:


    class Animal {
        // ...
    }

    class Dog extends Animal {
        // ...
    }

    public class Main {
        public static void main(String[] args) {
            Animal animal = new Dog();
            Class<?> clazz = animal.getClass();
            System.out.println(clazz.getName()); // 输出: Dog
        }
    }

    在上面的示例中,getClass()方法被调用时,对象animal的运行时类型是Dog,因此返回的Class对象代表Dog类。




需要注意的是,getClass()方法是继承自Object类的,因此可以在任何Java对象上调用。但是,在使用getClass()方法之前,必须确保对象不为null,否则会抛出NullPointerException异常。


getClass()方法与反射密切相关,是反射的基础之一。


在Java中,反射是指在运行时动态地获取类的信息并操作类或对象的能力。它允许程序在运行时检查和修改类、方法、字段等的属性和行为,而不需要在编译时确定这些信息。


通过调用对象的getClass()方法,我们可以获得对象的运行时类型的Class对象。然后,使用Class对象可以进行以下反射操作:





  1. 实例化对象:通过Class.newInstance()方法可以实例化一个类的对象。





  2. 获取类的构造函数:通过Class.getConstructors()方法可以获取类的所有公共构造函数,通过Class.getDeclaredConstructors()方法可以获取所有构造函数(包括私有构造函数),还可以通过参数类型匹配获取指定的构造函数。





  3. 获取类的方法:通过Class.getMethods()方法可以获取类的所有公共方法,通过Class.getDeclaredMethods()方法可以获取所有方法(包括私有方法),还可以通过方法名和参数类型匹配获取指定的方法。





  4. 获取类的字段:通过Class.getFields()方法可以获取类的所有公共字段,通过Class.getDeclaredFields()方法可以获取所有字段(包括私有字段),还可以通过字段名匹配获取指定的字段。





  5. 调用方法和访问字段:通过Method.invoke()方法可以调用方法,通过Field.get()Field.set()方法可以访问字段。




总结来说,getClass()方法提供了从对象到其运行时类型的连接,而反射则利用这个连接来获取和操作类的信息。通过反射,我们可以在运行时动态地使用类的成员,实现灵活的代码编写和执行。


作者:维维
来源:mdnice.com/writing/c1e0400e54e94e4881aacdfc5bb10508
收起阅读 »

前端异步请求轮询方案

业务背景 在前后端数据交互场景下,使用最多的一种方式是客户端发起 HTTP 请求,等待服务端处理完成后响应给客户端结果。 但在一些场景下,服务端对数据的处理需要较长的时间,比如提交一批数据,对这批数据进行数据分析,将最终分析结果返回给前端。 如果采用一次 HT...
继续阅读 »

业务背景


在前后端数据交互场景下,使用最多的一种方式是客户端发起 HTTP 请求,等待服务端处理完成后响应给客户端结果。


但在一些场景下,服务端对数据的处理需要较长的时间,比如提交一批数据,对这批数据进行数据分析,将最终分析结果返回给前端。


如果采用一次 HTTP 请求,用户会一直处于等待状态,再加上界面不会有进度交互,导致用户不知何时会处理完成;此外,一旦刷新页面或者其他意外情况,用户就无从感知处理结果。


面对这类场景,可以借助 「HTTP 轮询方式」 对交互体验进行优化,具体过程如下:


首先发起一次 HTTP 请求用于提交数据,之后启动轮询在一定间隔时间内查询分析结果,在这期间后台可将分析进度同步到前端来告知用户处理进度;此外即使刷新再次进入页面还可以通过「轮询」实时查询进度结果。


下面,我们来看看代码层面看如何实现这类场景。


JS 实现轮询的方式


在实现代码之前,我们需要先明确 JS 实现轮询的方式有哪些,哪种方式最适合使用。


1. setInterval


作为前端开发人员,提起轮询第一时间能想到的是计时器 setInterval,它会按照指定的时间间隔不间断的轮询执行处理函数。


let index = 1;

setInterval(() => {
console.log('轮询执行: ', index ++);
}, 1000);

回过头来看我们的场景:要轮询的是 异步请求(HTTP),请求响应结果会受限制网络或者服务器处理速度,显然 setInterval 这种固定间隔轮询并不适合这个场景。


2. Promise + setTimeout sleep


setInterval 的不足之处在于 轮询间隔时间 在异步请求场景下无法保证两个请求之间的间隔固定。要解决这个问题,可以使用 sleep 睡眠函数来控制间隔时间。


JS 中没有提供 sleep 相关方法,但可以结合 Promise + setTimeout 来实现。


const sleep = () => {
return new Promise(resolve => {
setTimeout(resolve, 1000);
});
}

sleep 仅控制了轮询间隔,而轮询的执行机制需要我们手动根据异步请求结果来实现,比如下面通过控制 while 循环的条件:


const start = async () => {
let i = 0;
while (i < 5) {
await sleep();
console.log(`第 ${++ i} 次执行`);
}
}

start();


使用轮询的时候可以借助 async/await 同步的方式编写,提高代码阅读质量。



实现异步请求轮询


下面我们通过一个完整示例理解 轮询异步请求 的实现及使用注意事项。


首先我们定义两个变量:index 用于控制何时停止轮询,timer 则用于实现中断轮询。


let index = 1;
let timer = 0;

这里,我们定义 syncPromise 来模拟异步请求,可以看作是一次 HTTP 请求,当进行 5 次异步请求后,会返回 false 表示拿到数据分析结果,停止数据查询轮询:


const syncPromise = () => {
return new Promise(resolve => {
setTimeout(() => {
console.log(`第 ${index} 次请求`);
resolve(index < 5 ? true : false);
index ++;
}, 50);
})
}

现在,我们实现 pollingPromise 作为 sleep 睡眠函数使用,去控制轮询的间隔时间,并在指定时间执行异步请求:


const pollingPromise = () => {
return new Promise(resolve => {
timer = setTimeout(async () => {
const result = await syncPromise();
resolve(result);
}, 1000);
});
}

最后,startPolling 作为开始轮询的入口,包含以下逻辑:



  • 1)在轮询前会清除正在进行的轮询任务,避免出现多次轮询;

  • 2)如果需要,在开始轮询时会立刻调用异步请求查询一次数据结果;

  • 3)最后,通过 while 循环根据异步请求的结果,决定是否继续轮询;


const startPolling = async () => {
// 清除进行中的轮询,重新开启计时轮询
clearTimeout(timer); // !!! 注意:清除计时器后,会导致整个 async/await 链路中断,若计时器的位置下方还存在代码,将不会执行。
index = 1;
// 立刻执行一次异步请求
let needPolling = await syncPromise();
// 根据异步请求结果,判断是否需要开启计时轮询
while (needPolling) {
needPolling = await pollingPromise();
}
console.log('轮询请求处理完成!'); // 若异步请求被 clearTimeout(timer),这里不会被执行打印输出。
}

const start = async () => {
await startPolling();
console.log('若异步请求被 clearTimeout(timer),这里将不会被执行');
}
start();

不过,需要注意的是:一旦清除计时器后,会导致整个 async/await 链路中断,若计时器的位置下方还存在代码,将不会执行。


假设当前执行了两次轮询被 clearTimeout(timer) 后,从 startPollingstart 整个 async/await 链路都会中断,且后面未执行的代码也不会被执行。


基于以上规则,异步轮询的处理逻辑尽量放在 syncPromise 异步请求核心函数中完成,避免在开启轮询

作者:明里人
来源:juejin.cn/post/7262261749105639481
的辅助函数中去实现。

收起阅读 »

hive宽表窄表互转

hive宽表窄表互转 背景 在工作中经常会遇到高表转宽表,宽表转窄表的场景,在此做一些梳理。 宽表转窄表 传统思路 使用sql代码作分析的时候,几次遇到需要将长格式数据转换成宽格式数据,一般使用left join或者case when实现,代码...
继续阅读 »

hive宽表窄表互转


背景


在工作中经常会遇到高表转宽表,宽表转窄表的场景,在此做一些梳理。


宽表转窄表


传统思路



使用sql代码作分析的时候,几次遇到需要将长格式数据转换成宽格式数据,一般使用left join或者case when实现,代码看起来冗长,探索一下,可以使用更简单的方式实现长格式数据转换成宽格式数据。



select year,
max(case when month=1 then money else 0 endas M1,
max(case when month=2 then money else 0 endas M2,
max(case when month=3 then money else 0 endas M3,
max(case when month=4 then money else 0 endas M4 
from sale group by year;

需求描述


某电商数据库中存在一张客户信息表user_info,记录着客户属性数据和消费数据,需要将左边长格式数据转化成右边宽格式数据。 需求实现



涉及函数: str_to_map, concat_ws, collect_set, sort_array




实现思路: 步骤一:将客户信息转化成map格式的数据。 collect_set形成的集合是无序的,若想得到有序集合,可以使用sort_array对集合元素进行排序。 步骤二:将map格式数据中的key与value提取出来,key就是每一列变量名,value就是变量值



select 
    user_no,
    message1['name'name,
    message1['sex'] sex,
    message1['age'] age,
    message1['education'] education,
    message1['regtime'] regtime,
    message1['first_buytime'] first_buytime
from 
  (select
      user_no,
      str_to_map(concat_ws(',',sort_array(collect_set(concat_ws(':', message, detail))))) message1
      from user_info
      group by user_no
      order by user_no
   ) a


窄表转宽表


长宽格式数据之间相互转换使用到的函数,可以叫做表格生成函数


需求描述


某电商数据库中存在表user_info1,以宽格式数据记录着客户属性数据和消费数据,需要将左边user_info1宽格式数据转化成右边长格式数据。 需求实现



步骤一:将宽格式客户信息转化成map格式的数据。 步骤二:使用explode函数将 map格式数据中的元素拆分成多行显示



select user_no, explode(message1)
    from 
    (select user_no, 
        map('name',name'sex',sex, 'age',age, 'education',education, 'regtime',regtime, 'first_buytime',first_buytime) message1
        from user_info1
    ) a

总结



不管是将长格式数据转换成宽格式数据还是将宽格式数据转换成长格式数据,都是先将数据转换成map格式数据。长格式数据转换成宽格式数据:先将长格式数据转换成map格式数据,然后使用列名['key']得到每一个key的value;宽格式数据转换成长格式数据:先将宽格式数据转换成map格式数据,然后使用explode函数将 map格式数据中的元素拆分成多行显示。顺便说一句,R语言中也是通过类似的方法实现长宽格式之间相互转换的。



作者:大数据启示录
来源:mdnice.com/writing/cfacb28094f643d5970e425fc6130980
收起阅读 »

看完这篇,SpringBoot再也不用写try/catch了

前言 使用 SpringBoot 开发 Web 应用时,异常处理是必不可少的一部分。在应用中,异常可能会出现在任何地方,例如在控制器、服务层、数据访问层等等。如果不对异常进行处理,可能会导致应用崩溃或者出现未知的错误。因此,对于异常的处理是非常重要的。 ...
继续阅读 »

前言


使用 SpringBoot 开发 Web 应用时,异常处理是必不可少的一部分。在应用中,异常可能会出现在任何地方,例如在控制器、服务层、数据访问层等等。如果不对异常进行处理,可能会导致应用崩溃或者出现未知的错误。因此,对于异常的处理是非常重要的。


本篇主要讲述在SpringBoot 中,如何用全局异常处理优雅的处理异常。


为什么要优雅的处理异常


如果我们不统一的处理异常,开发人员经常会在代码中东一块的西一块的写上 try catch代码块,长久以往容易堆积成屎山。


@Slf4j
@Api(value = "User Interfaces", tags = "User Interfaces")
@RestController
@RequestMapping("/user")
public class UserController {
    /**
     * @param userParam user param
     * @return user
     */

    @ApiOperation("Add User")
    @ApiImplicitParam(name = "userParam", type = "body", dataTypeClass = UserParam.classrequired true)
    @PostMapping("add")
    public ResponseEntity add(@Valid @RequestBody UserParam userParam) {
        // 每个接口都需要手动try catch
        try {
            // do something
        } catch(Exception e) {
            return ResponseEntity.fail("error");
        }
        return ResponseEntity.ok("success");
    }
}

那我们应该如何实现统一的异常处理呢?


使用 @ControllerAdvice + @ExceptionHandler注解



@ControllerAdvice 定义该类为全局异常处理类


@ExceptionHandler 定义该方法为异常处理方法。value 的值为需要处理的异常类的 class 文件。



首先自定义异常类 BusinessException :


/**
 * 业务异常类
 * @author rango
 */

@Data
public class BusinessException extends RuntimeException {
    private String code;
    private String msg;
 
    public BusinessException(String code, String msg) {
        this.code = code;
        this.msg = msg;
    }
}

然后编写全局异常类,用 @ControllerAdvice 注解:


/**
 * 全局异常处理器
 * @author rango
 */

@ControllerAdvice
public class GlobalExceptionHandler {
    private static final Logger logger = LoggerFactory.getLogger(GlobalExceptionHandler.class);
 
    /**
     * 处理 Exception 异常
     * @param httpServletRequest httpServletRequest
     * @param e 捕获异常
     * @return
     */

    @ResponseBody
    @ExceptionHandler(value = Exception.class)
    public ResponseEntity exceptionHandler(HttpServletRequest httpServletRequestException e
{
        logger.error("服务错误:", e);
        return new ResponseEntity("******""服务出错");
    }
 
    /**
     * 处理 BusinessException 异常
     * @param httpServletRequest httpServletRequest
     * @param e 捕获异常
     * @return
     */

    @ResponseBody
    @ExceptionHandler(value = BusinessException.class)
    public ResponseEntity businessExceptionHandler(HttpServletRequest httpServletRequestBusinessException e
{
        logger.info("业务异常报错!code:" + e.getCode() + "msg:" + e.getMsg());
        return new ResponseEntity(e.getCode(), e.getMsg());
    }
}


定义了全局异常处理器,项目就可以对不同的异常进行统一处理了。通常,为了使 controller 中不再使用任何 try/catch,会在 GlobalExceptionHandler 中对 Exception 做统一的拦截处理。这样其他没有用 @ExceptionHandler 配置的异常就都会统一被处理。


遇到异常时主动抛出异常


在业务中,遇到业务异常的地方,我们直接 throw 抛出对应的业务异常即可。如下所示


throw new BusinessException(ERROR_CODE, "用户账号/密码有误");

在 Controller 中的写法


Controller 中,不需要再写 try/catch,除非特殊场景。


@RequestMapping(value = "/test")
public ResponseEntity test() {
    ResponseEntity re = new ResponseEntity();
    // 业务处理
    return re;
}

结果展示


异常抛出后,返回如下结果。


{
    "code""E0014",
    "msg""用户账号/密码有误",
    "data"null
}

注意!!!



  • 抛出的异常如果被代码内的 try/catch 捕获了,就不会被 GlobalExceptionHandler 处理



  • 异步方法中的异常不会被全局异常处理(多线程)



  • 不是 controller 层抛出的异常才能被 GlobalExceptionHandler 处理,只要异常最后是从 contoller 层抛出去的都可以被捕获并处理

总结


本文介绍了使用 SpringBoot 时,如何通过配置全局异常处理器统一处理项目中的一些通用的异常,避免程序员不断的写try/catch导致的代码冗余,有利于代码的维护。


作者:程序员典籍
来源:mdnice.com/writing/103055f00ba04cf4b06f0195f839a449
收起阅读 »

千万级高可用分布式对账系统设计实践

背景         目前线上业务量与日俱增,每日的订单量超过千万,资金流动大,资金安全成为了重点关注的问题。为了确保每一笔交易的正确性,提高资金的正确性和保障业务的利益,除了RD代码逻辑严格以外,还需要对每日甚至每小时订单的流水进行核对,对异常情况能及时处理...
继续阅读 »

背景


        目前线上业务量与日俱增,每日的订单量超过千万,资金流动大,资金安全成为了重点关注的问题。为了确保每一笔交易的正确性,提高资金的正确性和保障业务的利益,除了RD代码逻辑严格以外,还需要对每日甚至每小时订单的流水进行核对,对异常情况能及时处理。面对千万级的订单量,人工对账肯定是不可行的,所以,实现一套对账系统成为了必然的事,不仅为资金安全提供依据,也节省公司运维人力,数据更加可视化。目前这套系统已覆盖聚合渠道网关与外部渠道100%的对账业务,完成春晚期间支付宝亿级订单量对账,完成日常AC项目千万级订单量对账,对账准确率实现6个9,为公司节省2~3个人力。


介绍


        对账模块是支付系统的核心功能之一,不同业务设计的对账模型不同,但是都会遇到以下几个问题:



  • 海量的数据,就目前聚合支付的订单量来看,设计的对账系统需要应对千万级的数据量;

  • 面对日切、多账、少账等异常差异订单应该如何处理;

  • 账单格式、下载账单时间、下载方式等不一致问题。


        针对以上问题,并结合财经聚合支付系统的特点,本文将设计一套可以应对千万级数据量、分布式和高可用的对账系统,利用消息队列Kafka的解耦性解决对账系统各模块之间的强依赖性。文章从三个方面介绍对账系统,第一方面,总体介绍对账系统的设计,依次介绍各个模块的实现及其过程中使用到的设计模式;第二方面,介绍对账系统版本迭代的过程,为什么需要进行版本迭代,以及版本迭代过程中踩过的“坑”;第三方面,总结现有版本的特点并提出下一步的优化思路。


系统设计


系统结构图


        图1为对账系统总结构图,分为六个模块,分别是文件下载模块、文件解析并推送模块、平台数据获取并推送模块、执行对账模块、对账结果统计模块和中间态模块,每个模块负责自己的职能。
对账系统总结构图


图1 对账系统总结构图


        图2为对账系统利用Kafka实现的状态转换图。每个模块独立存在,彼此之间通过消息中间件Kafka实现系统状态转换,通过中间态UpdateReconStatus类实现状态更新和message发送。这种设计不仅实现流水线对账,也利用消息中间件的特点,实现重试和模块之间的解耦。

对账系统状态转换图.png


图2 对账系统状态转换图


        为了更好的了解每个模块的实现过程,下面将依次对各个模块进行说明。

文件下载模块


设计

        文件下载模块主要完成各个外部渠道账单的下载功能。众所周知,聚合支付是聚众家三方机构能力为一体的支付方式,其中三方机构包括支付宝、微信等支付界的领头羊,多样性的支付渠道导致账单下载存在多样性,如何实现多模式、可拔插的文件下载能力成为该模块设计的重点。分析Java设计模式的特点,本模块采用接口模式,符合面向对象的设计理念,可实现快速接入。具体实现类图如图3所示(只展示部分类图)。


图3 文件下载实现类图


        下面就以支付宝对账文件下载方式为例,具体阐述一下实现过程。


实现

        分析支付宝接口文档,目前采用的下载方式为HTTPS,文件格式为.csv的压缩包。根据这些条件,本系统的实现方式如下(只摘取了部分代码)。由于消息中间件Kafka和中间态模块的机制,已经从系统层面考虑了重试的能力,因此不需要考虑重试机制,后续模块也如此。


public interface BillFetcher {
// ReconTaskMessage 为kafka消息,
// FetcherConsumer为自定义账单下载后的处理方式
String[] fetch(ReconTaskMessage message,FetcherConsumer consumer) throws IOException;
}

@Component
public class AlipayFetcher implements BillFetcher {

public AlipayFetcher(@Autowired BillDownloadService billDownloadService) {
Security.addProvider(new BouncyCastleProvider());
billDownloadService.register(BillFetchWay.ALIPAY, this);
}
...
@Override
public String[] fetch(ReconTaskMessage message, FetcherConsumer consumer) throws IOException {
String appId = map.getString("appId");
String privateKey = getConvertedPrivateKey(map.getString("privateKey"));
String alipayPublicKey = getPublicKey(map.getString("publicKey"), appId);
String signType = map.getString("signType");
String url = "https://openapi.alipay.com/gateway.do";
String format = "json";
String charset = "utf-8";
String billDate = DateFormatUtils.format(message.getBillDate(), DateTimeConstants.BILL_DATE_PATTERN);
String notExists = "isp.bill_not_exist";
String fileContentType = "application/oct-stream";
String contentTypeAttr = "Content-Type";
//实例化客户端
AlipayClient alipayClient = new DefaultAlipayClient(url, appId, privateKey, format, charset, alipayPublicKey, signType);
//实例化具体API对应的request类,类名称和接口名称对应,当前调用接口名称
AlipayDataDataserviceBillDownloadurlQueryRequest request = new AlipayDataDataserviceBillDownloadurlQueryRequest();
// trade指商户基于支付宝交易收单的业务账单
// signcustomer是指基于商户支付宝余额收入及支出等资金变动的帐务账单
request.setBizContent("{" +
""bill_type":"trade"," +
""bill_date":"" + billDate + """ +
" }");
AlipayDataDataserviceBillDownloadurlQueryResponse response = alipayClient.execute(request);
if(response.isSuccess()){
//do 根据下载地址获取对账文件,通过流式方式将文件放到指定的目录下
...
System.out.println("调用成功");
} else {
System.out.println("调用失败");
}
}
}

具体步骤:



  1. 重写构造方法,将实现类注入到一个map中,根据对应的下载方式获取实现类;

  2. 实现fetch接口,包括构造请求参数、请求支付宝、解析响应结果、采用流式将文件放入对应的目录下,以及这个过程中的异常处理。


文件解析并推送模块


设计

        前面提到,聚合支付是面对不同的外部渠道,对账文件的多样性不言而喻。比如微信是采用txt格式,支付宝采用csv格式等等,而且各个渠道的账单内容也是不一致的。如何解决渠道之间账单的差异性成为该模板需要重点考虑的问题。通过调研和现有对账系统的分析,本系统采用接口模式+RDF(结构化文本文件)的实现方式,其中接口模式解决账单多模式的问题,同时也实现可拔插的机制,RDF工具组件实现账单的快速标准化,操作简单易会。具体实现类图如图4所示(只展示部分类图)。


图4 文件标准化实现类图


        下面就以支付宝对账文件解析为例,具体阐述一下实现过程。
实现

        根据支付宝的账单格式,提前定义RDF标准模板,后续账单解析将根据模板将每一行对账文件解析为对应的一个实体类,其中需要注意标准模板的字段必须要和账单数据一一对应,实体类的字段可以多于账单字段,但必须包括所有的账单字段。接口定义如下:


public interface BillConverter<T> {
//账单是否可以使用匹配器
boolean match(String channelType, String name);
//转换原始对账文件到Hive
void convertBill(InputStream sourceFile, ConverterConsumer<T> consumer) throws IOException;
//转换原始对账文件到Hive
void convertBill(String localPath, ConverterConsumer<T> consumer) throws IOException;
}

具体实现步骤如图5所示:


流程图.png


图5 文件解析流程图



  1. 定义RDF标准模板,如下为支付宝业务流水明细模板,其中body结构内字段名必须和实体类名保持一致。


{
"head": [
"title|支付宝业务明细查询|Required",
"merchantId|账号|Required",
"billDate|起始日期|Required",
"line|业务明细列表|Required",
"header|header|Required"
],
"body": [
"channelNo|支付宝交易号",
"merchantNo|商户订单号",
"businessType|业务类型",
"production|商品名称",
"createTime|创建时间|Date:yyyy-MM-dd HH:mm:ss",
"finishTime|完成时间|Date:yyyy-MM-dd HH:mm:ss",
"storeNo|门店编号",
"storeName|门店名称",
"operator|操作员",
"terminalNo|终端号",
"account|对方账户",
"orderAmount|订单金额|BigDecimal",
"actualReceipt|商家实收|BigDecimal",
"alipayRedPacket|支付宝红包|BigDecimal",
"jiFenBao|集分宝|BigDecimal",
"alipayPreferential|支付宝优惠|BigDecimal",
"merchantPreferential|商家优惠|BigDecimal",
"cancelAfterVerificationAmount|券核销金额|BigDecimal",
"ticketName|券名称",
"merchantRedPacket|商家红包消费金额|BigDecimal",
"cardAmount|卡消费金额|BigDecimal",
"refundOrRequestNo|退款批次号/请求号",
"fee|服务费|BigDecimal",
"feeSplitting|分润|BigDecimal",
"remark|备注",
"merchantIdNo|商户识别号"
],
"tail": [
"line|业务明细列表结束|Required",
"tradeSummary|交易合计|Required",
"refundSummary|退款合计|Required",
"exportTime|导出时间|Required"
],
"protocol": "alib",
"columnSplit":","
}


  1. 实现接口的getChannelType、match方法,这两个方法用于匹配具体使用哪一个Convert类。如匹配支付宝账单,实现方式为:


@Override
public String getChannelType() {
return ChannelType.ALI.name();
}
@Override
public boolean match(String channelType, String name) {
return name.endsWith(".csv.zip");
}


  1. 实现接口的convertBill方法,完成账单标准化;


@Override
public void convertBill(String path, ConverterConsumer<ChannelBillPojo> consumer) throws IOException
{
FileConfig config = new FileConfig(path, "rdf/alipay-business.json", new StorageConfig("nas"));
config.setFileEncoding("UTF-8");
FileReader fileReader = FileFactory.createReader(config);
AlipayBusinessConverter.AlipayBusinessPojo row;
try {
while (null != (row = fileReader.readRow(AlipayBusinessConverter.AlipayBusinessPojo.class))) {
convert(row, consumer);
}
...
}


  1. 将标准化账单推送至Hive


平台数据获取并推送模块


        平台数据获取一般都是从数据库中获取,数据量小的时候,查询时数据库的压力不会很大,但是数据量很大时,如电商交易,每天成交量在100万以上,通过数据库查询是不可取的,不仅效率低,而且容易导致数据库崩溃,影响线上交易,这点会在后续的版本迭代中体现。因此,平台数据的抽取是从Hive上获取,只需要提前将交易数据同步到Hive表中即可,这样做不仅效率高,而且更加安全。考虑到抽取的Hive表不同、数据的表结构,数据收集器Collector类也采用了接口模式。Collector接口定义如下:


public interface DataCollector {
void collect(OutputStream os) throws IOException;
}

        根据目前平台数据收集器实现情况,可以得到类图如图6所示。


图6 平台数据收集器实现类图


执行对账模块


        该模块主要完成Hive命令的执行,在平台账单和渠道账单已全部推送至Hive的前提下,利用Hive处理大数据效率高的特点,执行全连接sql,并将结果存入指定的Hive表中,用于对账结果统计。执行对账sql可以根据业务需求而定,如需要了解本系统的全连接sql,欢迎与我交流。


对账结果统计模块


        对账任务执行成功之后,需要统计全连接后的数据,重点统计金额不一致、状态不一致、日切、少账(平台无账,渠道有账)和多账(平台有账,渠道无账)等差异。针对不同的情况,本系统分别采用如下的解决方案:



  1. 金额不一致:前端页面展示差异原因,人工进行核对;

  2. 状态不一致:针对退款订单,查询平台退款表,存在且金额一致认为已对平,不展示差异,其他情况,需要在前端页面展示差异原因,人工进行核对;

  3. 日切:当平台订单为成功,渠道无单时,根据平台订单创建时间判断是否可能存在日切,如果判断是日切订单,会将这笔订单存入buffer文件中,待统计结束后,将buffer文件上传至Hive日切表中,等第二天重新加载这部分数据实现跨日对账。对于平台无订单,渠道有单的情况,通过查询平台数据库判断是否存在差异,如果存在差异,需要在前端页面展示差异,人工进行核对。

  4. 少账:目前主要通过查询平台数据库判断是否存在差异,确认确实存在差异时,需要在前端页面展示差异,人工进行核对。

  5. 多账:目前这种有可能是日切,会先考虑日切,如果不在日切范围内,需要在前端页面展示差异,人工进行核对。


中间态模块


        中间态模块是用于各模块之间状态转换的模块,利用Kafka和状态是否更新的机制,实现消息的重发和对账状态的更新。从一个状态到下一个状态,必须满足当前状态为成功,对账流程才会往下一步执行。中间态的设计不仅解决了重试问题,而且将数据库的操作进行了收敛,更符合模块化的设计,各个模块各司其职。重试次数也不是无限的,目前设置的重试次数为3次,如果3次重试后依然没有成功,会发lark通知,人工介入解决。


        总之,对账工作,既复杂也不复杂,需要我们细心,对业务要有深入的了解,并选择合适的处理方式,针对不同的业务,不断迭代优化系统。


版本迭代


        系统的设计很大程度受业务规模的影响,对于财经聚合支付而言,订单量发生了几个数量级的变化,这个过程中不断暴露出对账系统存在的问题,优化改进对账系统是必然的事。从系统设计到目前大致可以分为三个阶段:初始阶段、过渡阶段和当前阶段。


初始版(v1.0)

        初始版上线后实现了聚合渠道对账的自动化,尤其在2018年的春节活动中,资金安全提供了重要的保障,实现了聚合和老合众、支付宝、微信等渠道的对账。随着财经业务的发展,抖音电商的快速崛起,对账系统逐渐暴露出不足,比如对账任务失败增多,尤其是数据量大的对账、非正常差异结果展示、对账效率低等问题。通过不断分析,发现存在以下几个问题:



  1. 系统的文件都是放在临时目录tmp下的,TCE平台会对这个目录下的文件定时清理,导致推送文件到Hive时会报找不到文件的情况,尤其是大数据量的对账任务;

  2. Kafka消息积累多,导致对账流程中断,主要是新增渠道,对账任务增加,同时Hive执行队列是共享队列,大部分的对账流程因为没有资源而卡住;

  3. 非正常差异结果展示,主要是查单没有增加重试机制,当查询过程中出现超时等异常,会出现非正常差异结果,还有部分原因是日切跨度小而导致的非正常差异结果。


过渡版(v2.0)

        考虑到初始版对账系统存在的不足和对账功能的急迫性,对初始版进行过渡性的优化,初步实现大数据量的对账功能,同时也提高了差异结果的准确率。相比初始版,该版本主要进行了以下几点优化:



  1. 文件存放目录由临时目前改为服务下的某一个目录,防止大文件被回收,文件上传到Hive后删除文件;

  2. 重新申请独占的执行队列,解决资源不足导致对账流程卡住的问题;

  3. 查单新增重试机制,日切跨度增大,解决非正常差异结果展示,提供差异结果的准确率。


        过渡版集中解决初始版明显存在的问题,对于一些潜在的问题并没有彻底解决,如代码容错率低、对账任务异常后人工响应慢、对账效率低、数据库安全性低等问题。


当前版(v3.0)

        当前版优化的宗旨是实现对账系统的"三高",分别为高效率、高准确率(6个9)和高稳定性。


        对于高效率,主要体现在平台数据获取慢,而且存在数据库安全问题,针对这块逻辑进行了优化,改变数据获取途径,由原来的数据库获取改为从高效率的Hive中获取,只需要提前将数据同步到Hive表中即可。


        对于高准确率,主要优化对账差异处理逻辑,进一步细化差异处理方式,新增差异结果报警,细化前端页面差异原因。


        对于高稳定性,主要优化RDF处理对账文件发生异常时新增兜底逻辑,提高系统的容错性;对账任务失败或超过指定重试阈值时增加报警,加快人工响应速率;对查单等操作数据库逻辑增加限流,防止数据库崩溃。


        版本迭代过程可以总结如下,希望读者别重复入坑,尤其是大文件处理方面。


业务情况优点存在的问题目标
初始版(v1.0)财经部门初期,订单量少,业务结构简单实现少量交易量对账;支持分布式效率低;对账任务容易卡住;非异常case普遍;大数据基本不能完成对账保障资金安全问题,实现聚合渠道网关与外部渠道的对账功能
过渡版(v2.0)电商业务崛起,订单量增加,业务种类增多实现海量数据对账;查单新增重试机制;降低非异常case数量影响数据库安全性;代码容错率低;对账效率低;对账任务异常时人工响应慢支持千万级订单量对账
当前版(v3.0)优化过渡版遗漏问题,改变数据获取路径效率大大提升;实现千万级数据量对账;实现高稳定性,高准确率,高效率全连接效率低;不支持订单状态推进实现对账系统的高效率,准确率实现6个9;功能全面

总结


        对账系统模型与业务息息相关,业务不同,对账系统模型也会不同,但是大部分对账系统的整体架构变化不大,主要区别是各个模块的实现方式不同。希望本文介绍的对账系统能为各位读者提供设计思路,避免重复入坑。对对账系统感兴趣的同学可以找财经支付团队同学详聊,一起深入探讨,提出优化建议,比如优化全连接策略,也欢迎各种简历推荐。


参考文章


信息流对账与平台化实现-曾佳


混合编程在财经对账中的应用-王亚宁


内推链接


image.png

收起阅读 »

第三方认证中心跳转

一、业务需求 由第三方认证中心将 token 放在 header 中跳转系统,前端获取到第三方系统携带 header 中的 token。 二、 业务流程 模拟第三方应用 CUSTOM-USERTOKEN 是第三方的 tok...
继续阅读 »

一、业务需求


由第三方认证中心将 token 放在 header 中跳转系统,前端获取到第三方系统携带 header 中的 token。


二、 业务流程





模拟第三方应用





  • CUSTOM-USERTOKEN 是第三方的 token



  • proxy_pass 是我们的前端地址


  server {
listen 12345;
server_name localhost;

location / {
proxy_set_header Host $host:$server_port;
proxy_set_header REMOTE-HOST $remote_addr;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Real-Port $remote_port;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header CUSTOM-USERTOKEN 'MY-TOKEN'
proxy_pass http://127.0.0.1;
}
}

前端静态代理





  • backend 是后端服务地址



  • 80 是前端代理端口


  server {
listen 80;
server_name localhost;

location / {
root /vuepress/docs;
index index.html;
try_files $uri $uri/ /index.html;
}
error_page 405 =200 $uri;
}

三、处理方式


由于放在 header 中的内容,前端只有从 XHR 请求中才能拿到,所以直接打开页面时,肯定是无法拿到 header 中的 token 的,又因为这个 token 只有从第三方系统中跳转才能携带,所以也无法通过请求当前页面去获取 header 中的内容。


一、通过后端重定向


在 nginx 代理中,第三方请求从原本跳转访问前端的地址==改为==后端地址, 因为后端是可以从请求总直接拿到 header,所以这时由后端去处理 token ,在重定向到前端。





  • 后端可以设置 cookie,前端从 cookie 中获取



  • 后端可以拼接 URL, 前端从 url 中获取



  • 后端可以通过缓存 cookie, 重定向到前端后发请求获取 token


模拟第三方应用





  • 第三方应用由跳转前端改为跳转后端接口


  server {
listen 12345;
server_name localhost;

location / {
proxy_set_header Host $host:$server_port;
proxy_set_header REMOTE-HOST $remote_addr;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Real-Port $remote_port;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header CUSTOM-USERTOKEN 'MY-TOKEN'
proxy_pass http://backend/token;
}
}

前端静态代理





  • 前端代理不需要做任何处理


  server {
listen 80;
server_name localhost;

location / {
root /vuepress/docs;
index index.html;
try_files $uri $uri/ /index.html;
}
error_page 405 =200 $uri;
}

二、通过 nginx 重定向 URL


在 nginx 代理中,新增一个 /token 的代理地址,用于转发地址,第三方请求从原本跳转访问前端的地址,改为 /token 代理地址 因为 nginx 中是可以获取 header 中的内容的,所以这时由 /token 处理拼接好 url ,在重定向到前端。





模拟第三方应用



  server {
listen 12345;
server_name localhost;

location / {
proxy_set_header Host $host:$server_port;
proxy_set_header REMOTE-HOST $remote_addr;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Real-Port $remote_port;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header CUSTOM-USERTOKEN 'MY-TOKEN'
proxy_pass http://127.0.0.1/token;
}
}

前端静态代理





  • 新增 /token 代理,进行拼接 URL 后跳转


  server {
listen 80;
server_name localhost;

location / {
root /vuepress/docs;
index index.html;
try_files $uri $uri/ /index.html;
}
location /token {
# 将 $http_custom_usertoken 拼接在 URL 中,同时重定向到前端
# 前端通过 location.search 处理 token
rewrite (.+) http://127.0.0.1?token=$http_custom_usertoken;
}
error_page 405 =200 $uri;
}

三、通过 nginx 设置 Cookie


由于通过响应头中设置 Set-Cookie 可以直接存储到浏览器中,所以我们也可以通过直接设置 cookie 的方式处理。





模拟第三方应用





  • 此时第三方应用直接访问前端即可


  server {
listen 12345;
server_name localhost;

location / {
proxy_set_header Host $host:$server_port;
proxy_set_header REMOTE-HOST $remote_addr;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Real-Port $remote_port;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header CUSTOM-USERTOKEN 'MY-TOKEN'
proxy_pass http://127.0.0.1;
}
}

前端静态代理





  • token 设置在 cookie


  server {
listen 80;
server_name localhost;

location / {
add_header Set-Cookie "token=$http_custom_usertoken;HttpOnly;Secure";
root /vuepress/docs;
index index.html;
try_files $uri $uri/ /index.html;
}
error_page 405 =200 $uri;
}

四、nginx 代理转发设置 Cookie


方法 三、通过 nginx 设置 Cookie 中,存在一个问题,由于此时在前端静态代理上添加 cookie,这就会导致所有静态资源都会携带 cookie, 这就会造成 cookie 中因为 path 不同而重复添加, 所以我们还可以通过造一层代理的方式处理这个问题





模拟第三方应用





  • 代理地址再次修改为 token


  server {
listen 12345;
server_name localhost;

location / {
proxy_set_header Host $host:$server_port;
proxy_set_header REMOTE-HOST $remote_addr;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Real-Port $remote_port;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header CUSTOM-USERTOKEN 'MY-TOKEN'
proxy_pass http://127.0.0.1/token;
}
}

前端静态代理





  • token 设置在 /token 代理地址的 cookie



  • /token 重定向到前端地址


  server {
listen 80;
server_name localhost;

location / {
root /vuepress/docs;
index index.html;
try_files $uri $uri/ /index.html;
}

location /token {
add_header Set-Cookie "token=$http_custom_usertoken;HttpOnly;Secure";
rewrite (.+) http://127.0.0.1;
}
error_page 405 =200 $uri;
}

作者:子洋
来源:mdnice.com/writing/d92f346cc96a43b49fc36c9894add729
收起阅读 »

微服务的各种边界在架构演进中的作用

演进式架构 在微服务设计和实施的过程中,很多人认为:“将单体拆分成多少个微服务,是微服务的设计重点。”可事实真的是这样吗?其实并非如此! Martin Fowler 在提出微服务时,他提到了微服务的一个重要特征——演进式架构。那什么是演进式架构呢?演进式...
继续阅读 »

演进式架构


在微服务设计和实施的过程中,很多人认为:“将单体拆分成多少个微服务,是微服务的设计重点。”可事实真的是这样吗?其实并非如此!


Martin Fowler 在提出微服务时,他提到了微服务的一个重要特征——演进式架构。那什么是演进式架构呢?演进式架构就是以支持增量的、非破坏的变更作为第一原则,同时支持在应用程序结构层面的多维度变化。


那如何判断微服务设计是否合理呢?其实很简单,只需要看它是否满足这样的情形就可以了:随着业务的发展或需求的变更,在不断重新拆分或者组合成新的微服务的过程中,不会大幅增加软件开发和维护的成本,并且这个架构演进的过程是非常轻松、简单的。


这也是微服务设计的重点,就是看微服务设计是否能够支持架构长期、轻松的演进。


那用DDD方法设计的微服务,不仅可以通过限界上下文和聚合实现微服务内外的解耦,同时也可以很容易地实现业务功能积木式模块的重组和更新,从而实现架构演进。


微服务还是小单体?


有些项目团队在将集中式单体应用拆分为微服务时,首先进行的往往不是建立领域模型,而只是按照业务功能将原来单体应用的一个软件包拆分成多个所谓的“微服务”软件包,而这些“微服务”内的代码仍然是集中式三层架构的模式,“微服务”内的代码高度耦合,逻辑边界不清晰,这里我们暂且称它为“小单体微服务”。


下面这张图也很好地展示了这个过程。





而随着新需求的提出和业务的发展,这些小单体微服务会慢慢膨胀起来。当有一天你发现这些膨胀了的微服务,有一部分业务功能需要拆分出去,或者部分功能需要与其它微服务进行重组时,你会发现原来这些看似清晰的微服务,不知不觉已经摇身一变,变成了臃肿油腻的大单体了,而这个大单体内的代码依然是高度耦合且边界不清的。


“辛辛苦苦好多年,一夜回到解放前啊!”这个时候你就需要一遍又一遍地重复着从大单体向单体微服务重构的过程。想想,这个代价是不是有点高了呢?


其实这个问题已经很明显了,那就是边界。


这种单体式微服务只定义了一个维度的边界,也就是微服务之间的物理边界,本质上还是单体架构模式。微服务设计时要考虑的不仅仅只有这一个边界,别忘了还要定义好微服务内的逻辑边界和代码边界,这样才能得到你想要的结果。


那现在你知道了,我们一定要避免将微服务设计为小单体微服务,那具体该如何避免呢?清晰的边界人人想要,可该如何保证呢?DDD已然给出了答案。


微服务边界的作用


你应该还记得DDD设计方法里的限界上下文和聚合吧?它们就是用来定义领域模型和微服务边界的。


我们再来回顾一下DDD的设计过程。


在事件风暴中,我们会梳理出业务过程中的用户操作、事件以及外部依赖关系等,根据这些要素梳理出实体等领域对象。根据实体对象之间的业务关联性,将业务紧密相关的多个实体进行组合形成聚合,聚合之间是第一层边界。根据业务及语义边界等因素将一个或者多个聚合划定在一个限界上下文内,形成领域模型,限界上下文之间的边界是第二层边界。


为了方便理解,我们将这些边界分为: 逻辑边界、物理边界和代码边界


逻辑边界 主要定义同一业务领域或应用内紧密关联的对象所组成的不同聚类的组合之间的边界。事件风暴对不同实体对象进行关联和聚类分析后,会产生多个聚合和限界上下文,它们一起组成这个领域的领域模型。微服务内聚合之间的边界就是逻辑边界。一般来说微服务会有一个以上的聚合,在开发过程中不同聚合的代码隔离在不同的聚合代码目录中。


逻辑边界在微服务设计和架构演进中具有非常重要的意义!


微服务的架构演进并不是随心所欲的,需要遵循一定的规则,这个规则就是逻辑边界。微服务架构演进时,在业务端以聚合为单位进行业务能力的重组,在微服务端以聚合的代码目录为单位进行微服务代码的重组。由于按照DDD方法设计的微服务逻辑边界清晰,业务高内聚,聚合之间代码松耦合,因此在领域模型和微服务代码重构时,我们就不需要花费太多的时间和精力了。


现在我们来看一个微服务实例,在下面这张图中,我们可以看到微服务里包含了两个聚合的业务逻辑,两个聚合分别内聚了各自不同的业务能力,聚合内的代码分别归到了不同的聚合目录下。


那随着业务的快速发展,如果某一个微服务遇到了高性能挑战,需要将部分业务能力独立出去,我们就可以以聚合为单位,将聚合代码拆分独立为一个新的微服务,这样就可以很容易地实现微服务的拆分。





另外,我们也可以对多个微服务内有相似功能的聚合进行功能和代码重组,组合为新的聚合和微服务,独立为通用微服务。现在你是不是有点做中台的感觉呢?


物理边界 主要从部署和运行的视角来定义微服务之间的边界。不同微服务部署位置和运行环境是相互物理隔离的,分别运行在不同的进程中。这种边界就是微服务之间的物理边界。


代码边界 主要用于微服务内的不同职能代码之间的隔离。微服务开发过程中会根据代码模型建立相应的代码目录,实现不同功能代码的隔离。由于领域模型与代码模型的映射关系,代码边界直接体现出业务边界。代码边界可以控制代码重组的影响范围,避免业务和服务之间的相互影响。微服务如果需要进行功能重组,只需要以聚合代码为单位进行重组就可以了。


正确理解微服务的边界


从上述内容中,我们知道了,按照DDD设计出来的逻辑边界和代码边界,让微服务架构演进变得不那么费劲了。


微服务的拆分可以参考领域模型,也可以参考聚合,因为聚合是可以拆分为微服务的最小单位的。但实施过程是否一定要做到逻辑边界与物理边界一致性呢?也就是说聚合是否也一定要设计成微服务呢?答案是不一定的,这里就涉及到微服务过度拆分的问题了。


微服务的过度拆分会使软件维护成本上升,比如:集成成本、发布成本、运维成本以及监控和定位问题的成本等。在项目建设初期,如果你不具备较强的微服务管理能力,那就不宜将微服务拆分过细。当我们具备一定的能力以后,且微服务内部的逻辑和代码边界也很清晰,你就可以随时根据需要,拆分出新的微服务,实现微服务的架构演进了。


当然,还要记住一点,微服务内聚合之间的服务调用和数据依赖需要符合高内聚松耦合的设计原则和开发规范,否则你也不能很快完成微服务的架构演进。


总结


我们主要讨论了微服务架构设计中的各种边界在架构演进中的作用。


逻辑边界: 微服务内聚合之间的边界是逻辑边界。它是一个虚拟的边界,强调业务的内聚,可根据需要变成物理边界,也就是说聚合也可以独立为微服务。


物理边界: 微服务之间的边界是物理边界。它强调微服务部署和运行的隔离,关注微服务的服务调用、容错和运行等。


代码边界: 不同层或者聚合之间代码目录的边界是代码边界。它强调的是代码之间的隔离,方便架构演进时代码的重组。


通过以上边界,我们可以让业务能力高内聚、代码松耦合,且清晰的边界,可以快速实现微服务代码的拆分和组合,轻松实现微服务架构演进。但有一点一定要格外注意,边界清晰的微服务,不是大单体向小单体的演进。


作者:架构狂人
来源:mdnice.com/writing/2e64f8fdf9cb4213894a57d4e7a8a904
收起阅读 »

分布式架构关键设计10问

一、选择什么样的分布式数据库? 分布式架构下的数据应用场景远比集中式架构复杂,会产生很多数据相关的问题。谈到数据,首先就是要选择合适的分布式数据库。 分布式数据库大多采用数据多副本的方式,实现数据访问的高性能、多活和容灾。目前主要有三种不同的分布式数据库...
继续阅读 »

一、选择什么样的分布式数据库?


分布式架构下的数据应用场景远比集中式架构复杂,会产生很多数据相关的问题。谈到数据,首先就是要选择合适的分布式数据库。


分布式数据库大多采用数据多副本的方式,实现数据访问的高性能、多活和容灾。目前主要有三种不同的分布式数据库解决方案。它们的主要差异是数据多副本的处理方式和数据库中间件。


1. 一体化分布式数据库方案


它支持数据多副本、高可用。多采用Paxos协议,一次写入多数据副本,多数副本写入成功即算成功。代表产品是OceanBase和高斯数据库。


2. 集中式数据库+数据库中间件方案


它是集中式数据库与数据库中间件结合的方案,通过数据库中间件实现数据路由和全局数据管理。数据库中间件和数据库独立部署,采用数据库自身的同步机制实现主副本数据的一致性。集中式数据库主要有MySQL和PostgreSQL数据库,基于这两种数据库衍生出了很多的解决方案,比如开源数据库中间件MyCat+MySQL方案,TBase(基于PostgreSQL,但做了比较大的封装和改动)等方案。


3. 集中式数据库+分库类库方案


它是一种轻量级的数据库中间件方案,分库类库实际上是一个基础JAR包,与应用软件部署在一起,实现数据路由和数据归集。它适合比较简单的读写交易场景,在强一致性和聚合分析查询方面相对较弱。典型分库基础组件有ShardingSphere。


小结: 这三种方案实施成本不一样,业务支持能力差异也比较大。一体化分布式数据库主要由互联网大厂开发,具有超强的数据处理能力,大多需要云计算底座,实施成本和技术能力要求比较高。集中式数据库+数据库中间件方案,实施成本和技术能力要求适中,可满足中大型企业业务要求。第三种分库类库的方案可处理简单的业务场景,成本和技能要求相对较低。在选择数据库的时候,我们要考虑自身能力、成本以及业务需要,从而选择合适的方案。


二、如何设计数据库分库主键?


选择了分布式数据库,第二步就要考虑数据分库,这时分库主键的设计就很关键了。


与客户接触的关键业务,我建议你以客户ID作为分库主键。这样可以确保同一个客户的数据分布在同一个数据单元内,避免出现跨数据单元的频繁数据访问。跨数据中心的频繁服务调用或跨数据单元的查询,会对系统性能造成致命的影响。


将客户的所有数据放在同一个数据单元,对客户来说也更容易提供客户一致性服务。而对企业来说,“以客户为中心”的业务能力,首先就要做到数据上的“以客户为中心”。


当然,你也可以根据业务需要用其它的业务属性作为分库主键,比如机构、用户等。


三、数据库的数据同步和复制


在微服务架构中,数据被进一步分割。为了实现数据的整合,数据库之间批量数据同步与复制是必不可少的。数据同步与复制主要用于数据库之间的数据同步,实现业务数据迁移、数据备份、不同渠道核心业务数据向数据平台或数据中台的数据复制、以及不同主题数据的整合等。


传统的数据传输方式有ETL工具和定时提数程序,但数据在时效性方面存在短板。分布式架构一般采用基于数据库逻辑日志增量数据捕获(CDC)技术,它可以实现准实时的数据复制和传输,实现数据处理与应用逻辑解耦,使用起来更加简单便捷。


现在主流的PostgreSQL和MySQL数据库外围,有很多数据库日志捕获技术组件。CDC也可以用在领域事件驱动设计中,作为领域事件增量数据的获取技术。


四、跨库关联查询如何处理?


跨库关联查询是分布式数据库的一个短板,会影响查询性能。在领域建模时,很多实体会分散到不同的微服务中,但很多时候会因为业务需求,它们之间需要关联查询。


关联查询的业务场景包括两类:第一类是基于某一维度或某一主题域的数据查询,比如基于客户全业务视图的数据查询,这种查询会跨多个业务线的微服务;第二类是表与表之间的关联查询,比如机构表与业务表的联表查询,但机构表和业务表分散在不同的微服务。


如何解决这两类关联查询呢?


对于第一类场景,由于数据分散在不同微服务里,我们无法跨多个微服务来统计这些数据。你可以建立面向主题的分布式数据库,它的数据来源于不同业务的微服务。采用数据库日志捕获技术,从各业务端微服务将数据准实时汇集到主题数据库。在数据汇集时,提前做好数据关联(如将多表数据合并为一个宽表)或者建立数据模型。面向主题数据库建设查询微服务。这样一次查询你就可以获取客户所有维度的业务数据了。你还可以根据主题或场景设计合适的分库主键,提高查询效率。


对于第二类场景,对于不在同一个数据库的表与表之间的关联查询场景,你可以采用小表广播,在业务库中增加一张冗余的代码副表。当主表数据发生变化时,你可以通过消息发布和订阅的领域事件驱动模式,异步刷新所有副表数据。这样既可以解决表与表的关联查询,还可以提高数据的查询效率。


五、如何处理高频热点数据?


对于高频热点数据,比如商品、机构等代码类数据,它们同时面向多个应用,要有很高的并发响应能力。它们会给数据库带来巨大的访问压力,影响系统的性能。


常见的做法是将这些高频热点数据,从数据库加载到如Redis等缓存中,通过缓存提供数据访问服务。这样既可以降低数据库的压力,还可以提高数据的访问性能。


另外,对需要模糊查询的高频数据,你也可以选用ElasticSearch等搜索引擎。


缓存就像调味料一样,投入小、见效快,用户体验提升快。


六、前后序业务数据的处理


在微服务设计时你会经常发现,某些数据需要关联前序微服务的数据。比如:在保险业务中,投保微服务生成投保单后,保单会关联前序投保单数据等。在电商业务中,货物运输单会关联前序订单数据。由于关联的数据分散在业务的前序微服务中,你无法通过不同微服务的数据库来给它们建立数据关联。


如何解决这种前后序的实体关联呢?


一般来说,前后序的数据都跟领域事件有关。你可以通过领域事件处理机制,按需将前序数据通过领域事件实体,传输并冗余到当前的微服务数据库中。


你可以将前序数据设计为实体或者值对象,并被当前实体引用。在设计时你需要关注以下内容:如果前序数据在当前微服务只可整体修改,并且不会对它做查询和统计分析,你可以将它设计为值对象;当前序数据是多条,并且需要做查询和统计分析,你可以将它设计为实体。


这样,你可以在货物运输微服务,一次获取前序订单的清单数据和货物运输单数据,将所有数据一次反馈给前端应用,降低跨微服务的调用。如果前序数据被设计为实体,你还可以将前序数据作为查询条件,在本地微服务完成多维度的综合数据查询。只有必要时才从前序微服务,获取前序实体的明细数据。这样,既可以保证数据的完整性,还可以降低微服务的依赖,减少跨微服务调用,提升系统性能。


七、数据中台与企业级数据集成


分布式微服务架构虽然提升了应用弹性和高可用能力,但原来集中的数据会随着微服务拆分而形成很多数据孤岛,增加数据集成和企业级数据使用的难度。你可以通过数据中台来实现数据融合,解决分布式架构下的数据应用和集成问题。


你可以分三步来建设数据中台。


第一,按照统一数据标准,完成不同微服务和渠道业务数据的汇集和存储,解决数据孤岛和初级数据共享的问题。


第二,建立主题数据模型,按照不同主题和场景对数据进行加工处理,建立面向不同主题的数据视图,比如客户统一视图、代理人视图和渠道视图等。


第三,建立业务需求驱动的数据体系,支持业务和商业模式创新。


数据中台不仅限于分析场景,也适用于交易型场景。你可以建立在数据仓库和数据平台上,将数据平台化之后提供给前台业务使用,为交易场景提供支持。


八、BFF与企业级业务编排和协同


企业级业务流程往往是多个微服务一起协作完成的,每个单一职责的微服务就像积木块,它们只完成自己特定的功能。那如何组织这些微服务,完成企业级业务编排和协同呢?


你可以在微服务和前端应用之间,增加一层BFF微服务(Backend for Frontends)。 BFF主要职责是处理微服务之间的服务组合和编排,微服务内的应用服务也是处理服务的组合和编排,那这二者有什么差异呢?


BFF位于中台微服务之上,主要职责是微服务之间的服务协调; 应用服务主要处理微服务内的服务组合和编排。 在设计时我们应尽可能地将可复用的服务能力往下层沉淀,在实现能力复用的同时,还可以避免跨中心的服务调用。


BFF像齿轮一样,来适配前端应用与微服务之间的步调。它通过Façade服务适配不同的前端,通过服务组合和编排,组织和协调微服务。BFF微服务可根据需求和流程变化,与前端应用版本协同发布,避免中台微服务为适配前端需求的变化,而频繁地修改和发布版本,从而保证微服务核心领域逻辑的稳定。


如果你的BFF做得足够强大,它就是一个集成了不同中台微服务能力、面向多渠道应用的业务能力平台。


九、分布式事务还是事件驱动机制?


分布式架构下,原来单体的内部调用,会变成分布式调用。如果一个操作涉及多个微服务的数据修改,就会产生数据一致性的问题。数据一致性有强一致性和最终一致性两种,它们实现方案不一样,实施代价也不一样。


对于实时性要求高的强一致性业务场景,你可以采用分布式事务,但分布式事务有性能代价,在设计时我们需平衡考虑业务拆分、数据一致性、性能和实现的复杂度,尽量避免分布式事务的产生。


领域事件驱动的异步方式是分布式架构常用的设计方法,它可以解决非实时场景的数据最终一致性问题。基于消息中间件的领域事件发布和订阅,可以很好地解耦微服务。通过削峰填谷,可以减轻数据库实时访问压力,提高业务吞吐量和处理能力。你还可以通过事件驱动实现读写分离,提高数据库访问性能。对最终一致性的场景,我建议你采用领域事件驱动的设计方法。


十、多中心多活的设计


分布式架构的高可用主要通过多活设计来实现,多中心多活是一个非常复杂的工程,下面我主要列出以下几个关键的设计。


1.选择合适的分布式数据库。数据库应该支持多数据中心部署,满足数据多副本以及数据底层复制和同步技术要求,以及数据恢复的时效性要求。


2.单元化架构设计。将若干个应用组成的业务单元作为部署的基本单位,实现同城和异地多活部署,以及跨中心弹性扩容。各单元业务功能自包含,所有业务流程都可在本单元完成;任意单元的数据在多个数据中心有副本,不会因故障而造成数据丢失;任何单元故障不影响其它同类单元的正常运行。单元化设计时我们要尽量避免跨数据中心和单元的调用。


3.访问路由。访问路由包括接入层、应用层和数据层的路由,确保前端访问能够按照路由准确到达数据中心和业务单元,准确写入或获取业务数据所在的数据库。


4.全局配置数据管理。实现各数据中心全局配置数据的统一管理,每个数据中心全局配置数据实时同步,保证数据的一致性。


总结


企业级分布式架构的实施是一个非常复杂的系统工程,涉及到非常多的技术体系和方法。今天我列的10个关键的设计领域,每个领域其实都非常复杂,需要很多的投入和研究。在实施的时候,你和你的公司要结合自身情况来选择合适的技术组件和实施方案。


作者:架构狂人
来源:mdnice.com/writing/efcac6bf632b4172903c8a14c2e1f0f4
收起阅读 »

二维码基本原理

二维码技术始于20世纪80年代末,全球现有250多种二维码,其中常见技术标准有PDF417,QRCode,Code49Code16K,CodeOne等20余种。我们日常扫码以QR码居多。 从1997年到2012年,我国陆续发布了5个二维码国家标准:PDF41...
继续阅读 »


二维码技术始于20世纪80年代末,全球现有250多种二维码,其中常见技术标准有PDF417,QRCode,Code49Code16K,CodeOne等20余种。我们日常扫码以QR码居多。



从1997年到2012年,我国陆续发布了5个二维码国家标准:PDF417,QRCode(快速响应码),汉信码,GM码(网格矩阵码)和CM码(紧密矩阵码)。其中QRCode因为具有识读速度快、信息容量大、占用空间小、保密性强、可靠性高的优势,是目前使用最为广泛的一种二维码。QRCode 呈正方形,只有两种颜色,在4个角落的其中3个,印有像“回”字的的小正方图案。QR码是属于开放式的标准。




二维码的工作原理


二维码内的图案代表二进制代码,经过解释后可显示代码存储的数据。


二维码阅读器根据二维码外侧的三个较大方块来识别标准二维码。当识别出这三个形状后,就知道整个方块内包含的内容是一个二维码。


二维码阅读器随后将整个二维码分解到网格进行分析。它查看每个网格方块,并根据方块是黑色还是白色来为其分配一个值。然后将网格方块组合在一起,创建更大的图案。



二维码由哪些部分组成


①.静态区域 (Quiet zone)


这是二维码外侧的空白边框。如果没有这个边框,二维码阅读器会因为外界因素的干扰而无法确定二维码包含和不包含的内容。


②.寻像图案 (Finder pattern)


二维码在左下角、左上角和右上角包含三个黑色方块。这些方块告诉二维码阅读器它看到的是一个二维码,及二维码的外部边框在哪里。


③.校准图案 (Alignment pattern)


这是二维码右下角附近的某个位置包含的另一个较小方块,用于确保二维码在倾斜或有角度的情况下仍然可以阅读。


④.定位图案 (Timing pattern)


这是一条 L 形线,在寻像图案的三个方块之间。定位图案帮助阅读器识别整个二维码中的各个方块,使损坏的二维码仍有可能被阅读。


⑤.版本信息 (Version information)


这是二维码右上角寻像图案附近的一小块信息区域。它标识了正在阅读的二维码的版本(请参阅“二维码有哪四个版本?”)。


⑥.数据单元 (Data cell)


二维码的其余部分传达实际信息,即所包含的 URL、电话号码或消息。



二维码的特点


①.高密度编码,信息容量大:可容纳1850个大写字母或2710个数字或1108个字节,或500多个汉字,比普通条码信息容量约高几十倍。


②.编码范围广:可以把图片、声音、文字、签字、指纹等可以数字化的信息进行编码,用二维码表示出来;可以表示多种语言文字;可表示图像数据。


③.容错能力强,具有纠错功能:这使得二维条码因穿孔、污损等引起局部损坏时,照样可以正确识读,损毁面积达30%仍可恢复信息。


④.译码可靠性高:它比普通条码译码错误率百万分之二要低得多,误码率不超过千万分之一。


⑤.可引入加密措施:保密性、防伪性好。


⑥.成本低,易制作,持久耐用。



为什么要统一标准


①.如果二维码的数据格式不统一、印制精度、符号大小不符合要求,就容易导致信息乱码、无法识读。
②.如果特定二维码只能在特定客户端上扫描,导致用户扫描反复受挫,用户体验不好。


 
统一的二维码国家标准是解决这方面问题的最佳手段,以实现最佳的兼容性和用户体验。而不兼容国家标准的客户端由于用户体验差,自然被用户抛弃。



常用二维码对比




QR二维码读取


QR码从360°任一方向均可快速读取。其奥秘就在于QR码中的3处定位图案,可以帮助QR码不受背景样式的影响,实现快速稳定的读取。





QR码的基本结构



格式信息:表示改二维码的纠错级别,分为L、M、Q、H;


校正图形:规格确定,校正图形的数量和位置也就确定了;


数据和纠错码字:实际保存的二维码信息,和纠错码字(用于修正二维码损坏带来的错误)


位置探测图形、位置探测图形分隔符、定位图形:用于对二维码的定位,每个QR码位置都是固定存在的,只是大小有所差异;


版本信息:即二维码的规格,QR码符号共有40种规格的矩阵(一般为黑白色),从21x21(版本1),到177x177(版本40),每一版本符号比前一版本 每边增加4个模块。





QR码存储容量


格式容量
数字最多7089字符
字母最多4296字符
二进制数(8 bit)最多2953字节
日文汉字/片假名最多1817字符(采用Shift JIS)
中文汉字最多984字符(采用UTF-8)


QR码纠错能力


即使编码变脏或破损,也可自动恢复数据。这一“纠错能力”具备4个级别,用户可根据使用环境选择相应的级别。调高级别,纠错能力也相应提高,但由于数据量会随之增加,编码尺寸也也会变大。


纠错等级纠错水平
L7%字码修正
M15%字码修正
Q25%字码修正
H

30%字码修正







下图所示:相同内容的二维码,纠错等级不一样,矩阵的密度也不一样,容错率越高,密度越大




不是所有位置都可以缺损,像三个角上的回字方框,直接影响初始定位,不能缺失。中间零散的部  分是内容编码,可以容忍缺损。



计算机的世界都是0和1,二维码再一次说明了这个问题







普通二维码存在的问题


普通二维码只是对文字、网址、电话等信息进行编码,不支持图片、音频、视频等内容,且生成二维码后内容无法改变,在信息内容较多时生成的二维码图案复杂,不容易识别和打印,正是由于存在这些特性故称之为静态二维码。静态二维码的好处就是无需联网也能识别,但是有些时候在线下场景经常需要打印二维码出来让用户去扫码,或者在一些运营场景下需要对用户的扫码情况进行数据统计和分析,再使用普通的二维码就无法提供这些功能了,这时候就要使用动态二维码了





动态二维码(活码)及其原理


动态二维码也称之为活码,内容可变但是二维码不变。支持随时修改二维码的内容且二维码图案不变,可跟踪扫描统计数据,支持存储大量文字、图片、文件、音视、视频等内容,同时生成的图案简单易扫。


实际上二维码是按照指定的规则编码后的一串字符串,通常情况下是一个网址,在二维码出现之前,打开浏览器输入网址即可访问相应的网站,而有了二维码之后,我们扫描二维码,首先会做一次从二维码到文本的解析、转换,然后根据解析出来的文本结果判断是否是链接,是则跳转到这个链接,尽管我们操作方式改变了,但其原理是相同的。 


二维码对外暴露的是同一个网址,服务端只需要对这个网址做个二次跳转就行,这个对外暴露固定不变的网址也称为“活址”。




静态二维码和动态二维码(活码)的区别


比较项普通二维码动态二维码(活码)
内容修改不支持可以随时修改
内容类型支持文字、网址、电话等支持文字、图片、文件、音视、视频等内容
二维码图案内容越多越复杂活码图案简单
数据统计不支持支持
样式排版不支持支持


汉信码 -- 中国自主开发的二维码标准


汉信码是一种全新的二维矩阵码,由中国物品编码中心牵头组织相关单位合作开发,完全具有自主知识产权,支持任意语言编码、汉字信息编码能力超强、极强抗污损、抗畸变识读能力、识读速度快、信息密度高、信息容量大、纠错能力强等突出特点,达到国际领先水平。和国际上其他二维条码相比,更适合汉字信息的表示,而且可以容纳更多的信息。



物品编码中心于2003年申请了国家"十五"重大科技专项课题,并与我国多家自动识别技术企业合作,开展汉信码技术研究工作。2005年12月26日该课题顺利通过国家标准委组织的项目验收。2007年8月23日《汉信码》国家标准正式颁布,并于2008年2月1日正式实施。 




 汉信码生成:tuzim.net/barcode/han…
 汉信码识别:https://tuzim.net/hxdecode



它的主要技术特色是:
①.具有高度的汉字表示能力和汉字压缩效率
汉信码支持GB18030中规定的160万个汉字信息字符,并且采用12比特的压缩比率,每个符号可表示12~2174个汉字字符。


②.信息容量大
在打印精度支持的情况下,每平方英寸最多可表示7829个数字字符, 2174个汉字字符, 4350个英文字母。


③.编码范围广
汉信码可以将照片、指纹、掌纹、签字、声音、文字等凡可数字化的信息进行编码。


④.支持加密技术
汉信码是第一种在码制中预留加密接口的条码,它可以与各种加密算法和密码协议进行集成,因此具有极强的保密防伪性能。


⑤.抗污损和畸变能力强
汉信码具有很强的抗污损和畸变能力,可以被附着在常用的平面或桶装物品上,并且可以在缺失两个定位标的情况下进行识读。


⑥.修正错误能力强
汉信码采用世界先进的数学纠错理论,采用太空信息传输中常采用的Reed-Solomon纠错算法,使得汉信码的纠错能力可以达到30%。


⑦.可供用户选择的纠错能力
汉信码提供四种纠错等级,用户可以根据自己的需要在8%、15%、23%和30%各种纠错等级上进行选择,从而具有高度的适应能力。


⑧.容易制作且成本低
利用现有的点阵、激光、喷墨、热敏/热转印、制卡机等打印技术,即可在纸张、卡片、PVC、甚至金属表面上印出汉信码。由此所增加的费用仅是油墨的成本,可以真正称得上是一种“零成本”技术。


⑨.条码符号的形状可变
汉信码支持84个版本,可以由用户自主进行选择,最小码仅有指甲大小。


⑩.外形美观
汉信码在设计之初就考虑到人的视觉接受能力,所以较之现有国际上的二维条码技术,汉信码在视觉感官上具有突出的特点。



汉信码实现了我国二维码底层技术的后来居上,在我国多个领域行业实现规模化应用,为我国应用二维码技术提供了可靠核心技术支撑。





********** 延伸 **********


一维码 (条形码)


一维码也叫条形码,它是由不同宽度的黑条和白条按照一定的顺序排列组成的平行线图案,它的宽度记录着数据信息,长度没有记录信息,条形码常用于标出物品的生产国、制造厂家、商品名称、生产日期、图书分类号、邮件起止地点、类别、日期等信息,大部分食品包装袋背后都会印有条形码。


 全球的条形码标准都是由一个叫GS1的非营利性组织管理和维护的,通常情况下条形码由 95 条红或黑色的平行竖线组成,前三条是由黑-白-黑 组成,中间的五条由白-黑-白-黑-白组成,最后的三条和前三条一样也是由黑-白-黑组成,这样就把一个条形码分为左、右两个部分。剩下的 84 (95-3-5-3=84) 条按每 7 条一组分为 12 组,每组对应着一个数字,不同的数字的具体表示因编码方式而有所不同,不过都遵循着一个规律:右侧部分每一组的白色竖线条数都是奇数个。这样不管你是正着扫描还是反着扫描都是可以识别的。


 中国使用的条形码大部分都是 EAN-13 格式的,条形码数字编码的含义从左至右分别是前三位标识来源 国家编码 ,比如中国为:690–699,后面的 4 ~ 8 位数字代表的是厂商公司代码,但是位数不是固定的,紧接着后面 的 9~12 位是商品编码,第 13 位是校验码,这就意味着公司编码越短,剩余可用于商品编码的位数也越多,可表示的商品也就越多,当然公司代码出售价格也相应更昂贵,另外用在商品上的 EAN-13 条码是要到 国家物品编码中心去申请的。





作者:似水流年QC
来源:juejin.cn/post/7258201505337131065

收起阅读 »

生存or毁灭?QQ空间150万行代码的涅槃重生

腾小云导读 今年是 QQ 空间诞生的第十八年,空间客户端团队也在它十八岁生日前夕完成了架构升级。因为以前不规范的多团队协同开发,导致代码逐渐劣化,有着巨大的风险。于是 QQ 空间面对庞大的历史债务,选择了重构升级,不破不立。这里和大家分享一下在重构过程中遇到的...
继续阅读 »

腾小云导读


今年是 QQ 空间诞生的第十八年,空间客户端团队也在它十八岁生日前夕完成了架构升级。因为以前不规范的多团队协同开发,导致代码逐渐劣化,有着巨大的风险。于是 QQ 空间面对庞大的历史债务,选择了重构升级,不破不立。这里和大家分享一下在重构过程中遇到的问题和解题思路,欢迎阅读。


目录


1 空间重构项目的背景


2 为什么要重构


3 空间的架构是如何崩坏的


4 架构的生命力


5 渐进式重构如何实现


6 如何保证架构的扩展性与复用性7 如何降低复杂度并长期可控


8 如何防止劣化


9 性能优化


10 项目重构成果总结


11 展望


18年前,QQ 空间上线,迅速风靡全网,成为了很多人的青春回忆。18年后的今天,QQ 空间的生命力依然强劲,是很多年轻用户的首选社交平台。


而作为最老牌的互联网产品之一,QQ 空间的代码也比较陈旧,代码运行环境复杂,维护成本高,整体架构亟需一场升级。


01、空间重构项目的背景


作为一个平台型的入口,空间承担了为很多兄弟业务引流的责任,许多团队在空间的代码里协作开发。加上自身多年累积的功能迭代,空间的业务变得非常复杂。业务的复杂带来了架构的复杂,架构的复杂意味着维护成本的升高。多年来空间的业务交接频繁,多个团队接手。交到我们团队手上时,空间的代码已经一言难尽。


这里先简单介绍一下空间的业务形态:空间目前主要的入口是在手 Q 里,我们叫做结合版。同时独立版的空间 App 还在维护(没错,空间独立 App 仍然还有一批忠实观众)。可以看到,空间有一套独立于手 Q 之外的架构,结合版与独立版会共用大量技术组件和业务组件。



02、为什么要重构?


空间是一个祖上很阔的业务,代码量非常庞大,单统计结合版的代码,就超过了150w 行。同时空间的代码运行环境也极为复杂,涉及5个进程和2个插件。随着频繁的交接和多团队的协同开发,空间的代码逐渐劣化,各项代码质量的指标几乎都在手 Q 里垫底。


空间的代码成了著名的原始森林 - 进得去出不来。代码的劣化导致历史 bug 难以收敛,即使一行代码不改,每个版本也会新增历史 bug30+。


面对如此庞大的历史债务,空间已经到了寸步难行,不破不立的地步,重构势在必行。所以,借着空间 UI 升级的契机,空间团队开始空间历史上最大规模的一次重构。


03、空间的架构是如何逐步劣化的?


跳出棋局,站在今天的角度回头看,可以发现空间的代码是个典型案例,很好地展示了一个干净的架构是如何逐步劣化的。



3.1 扩展性低,异化代码无处安放


结合版与独立版涉及大量的代码复用,包括组件、页面和跨 App 的复用等。但由于前期架构扩展性不高,导致异化的业务代码无处安放,开始侵入底层技术组件。底层组件代码开始受到污染。


3.2 代码未隔离且缺乏编程范式


空间是个平台型的业务,广告、会员、游戏、直播、小世界等团队都会在空间的代码里开发。由于没有做好代码隔离,各团队的代码耦合在一起,各写各的。同时由于缺乏编程范式,同一个类中的代码风格迥异。破窗效应发生,污染开始扩散。


3.3 维护成本暴增,恶性循环


空间的业务逻辑本身就很复杂,代码的劣化使其复杂度暴增,后续接手团队已有心无力,只能缝缝补补又三年,恶性循环。


最后陷入怪圈: 代码很乱但是稳定,开发道理都懂但确实不敢动。



3.4 Feeds 流的崩坏


以空间的 Feeds 流为例,最开始的架构思路是很清楚的,核心功能在基类实现,上层业务可以低成本地开发一个新的 Feeds 流页面。同时做了很多动态化和容器化的设计,来满足迭代效率。



但后续的需求迅速膨胀,异化出18种 Feeds 流场景,单 Feeds 流可能出现60多种卡片。这导致基类代码与 Feed View 中的代码迅速膨胀。同时 N 个团队在同一批代码中开发,代码行数和圈复杂度逐渐劣化。



04、架构的生命力


痛定思痛,在进行空间重构前的首件事情就是总结经验,避免重蹈覆辙。如何保证这次重构平稳落地并且避免后续每三年一重构?


我们总结了四点:


渐进式重构:高速公路换轮胎,如何平稳落地? 提高扩展性和复用性:是否能低成本迁移到其他业务,甚至是其他 App? 复杂度长期可控:n 个团队跑来做两年需求,复杂度会不会变高? 做好防劣化:劣化代码被引入,能否快速发现?

空间的重构都围绕着这四个问题来进行。


05、渐进式重构如何实现?


作为一个亿级日活的业务,空间出现线上问题很容易引起大量投诉。高速公路换轮胎,小步快跑是最合适的方式。因此,平稳落地的关键是渐进式重构,避免步子迈得太大导致工作量扩散。


要做到渐进式重构,核心是保证两点:


一个复杂的大问题能被分解为许多个小问题,可针对小问题重构和回滚; 系统随时都是可用状态。每解决一个小问题,都可以针对性的测试和上线。

为了实现以上两点,我们基于以下几点来进行改造:



5.1 先拆解,后治理


我们并没有立即开始对旧代码进行重写,而是先基于团队的 RFW-Part 框架对老代码进行拆解。Part 自带生命周期,可以保证老代码平移前后的运行逻辑一致。


尽管代码逻辑没有翻新,但大问题被拆解为一个个小问题,我们再根据优先级对单个 Part 进行重构。保证无论重构了多少,空间都是可用状态,能立即上线验证。


RFW-Part 框架后文会有介绍,此处不做展开。


5.2 架构融合


我们彻底抛弃了空间老的技术组件,与团队内部沉淀的 RFWComponent 进行架构融合,同时也积极接入手 Q 统一的 UI 体系。保证开发能专注于业务中间层开发。


5.3 提效前置,简化运行环境


在进行业务重构前,我们先还了一部分技术债。包括去插件化、进程统一、工程结构优化和编译优化等。这些工作都在业务重构前完成并上线验证,简化了空间代码的运行环境,提升开发效率,保证了重构工作的敏捷性,达到了针对单点问题快速重构快速验证的目的。



06、如何保证架构的扩展性与复用性?


扩展性和复用性是软件工程永恒的话题。空间历史架构并没有很好处理这两点,其他业务接入时难以处理异化逻辑,使异化逻辑侵入底层代码。同时为了强行实现结合版和独立版的代码复用,使不同的场景耦合在一起,互相干扰。


为了提高架构的扩展性和复用性,我们重新设计了空间的架构层级。


6.1 业务层打薄,专注中间层


为了避免代码跨层级污染,我们对架构的分层比以往更细,隔离做得更严格。


底层技术组件基于 RFW 框架。RFW 中的组件更干净,没有任何业务侵入,能在其他 App 开箱即用。


中间层负责对 RFW 组件和手 Q 运行环境做桥接,并对底层组件进行扩展,实现一些空间相关但与具体场景无关的功能。中间层的代码能在一周之内迁移到其他 App。



6.2 业务层打薄,专注中间层


RFWComponent 是一线开发在实际业务中沉淀出的一套组件库,目前由空间和小世界团队共同维护。所有组件都经过了线上业务的验证,保证了易用性和扩展性。组件也很完整,开箱即用。


最重要的是,RFW 的核心组件都可由上层注入代理实现,这使其并不依赖于手 Q 的运行环境,也避免了业务侧逻辑入侵底层代码。


目前整套架构已在空间、小世界、频道、基础等团队深度使用。空间也是第一个使用这套架构重构老代码的业务,整个过程非常省心。



07、如何降低复杂度并长期可控?


7.1 组合代替继承,Part + Section,拆!


什么是 RFW-Part?RFW-Part 是团队内部沉淀的一套页面级的 UI 容器架构,Part 可感知页面的生命的周期,功能在内部闭环。不同 Part 无法感知对方存在,代码是严格隔离的。



但是 Part 是页面级框架,无法解决 Feeds 流列表复杂的问题,Section 架构作为 Part 的补充,主要解决列表以及 ItemView 的拆解问题。其设计思路与 Part 框架一致。



基于 Part 和 Section 架构,我们将空间的代码拆分为了一个个标准的集装箱。代码复杂度和上手难度大大降低。新人内包入职一周便可独立开发,三天就完成了新功能此刻的消息页。



7.2 使用 Part 架构重塑超级页面


空间80%的流量和功能都集中在好友动态页和个人主页两个 Feeds 流页面,尽管内部已基于 mvvm 分层,但单层内的复杂度仍然过高:



以空间的好友动态页为例,我们将页面不同功能的代码都拆分到一个个 Part 里,Fragment 仅作为一个容器,负责组装自己需要的 Part。



最终页面被拆分为27个 Part,页面代码由6000多行减少到320行。很多 Part 可以直接拿去被其他 Feeds 流页面复用。



7.3 使用 Section 框架重塑 Feeds 流


经过 Part 的改造,页面级的功能都被拆分为子模块。但 Feeds 流整体作为一个 Part,复杂度仍然过高,我们需要设计一套新的框架,对 Feeds 流中的卡片进一步拆解。


7.3.1 空间老的 Feeds 流框架


这里先介绍一下空间老的 Feeds 流框架 - Ditto。


Ditto 框架魔改了 Android 原生的布局体系。其将一个卡片按位置分为不同 Area,每个 Area 作为一个容器。不同类型的卡片根据服务端下发的数据在 Area 内部做异化。


而每个 Area 的布局由 json 文件下发,Ditto 框架解析后使用 canvas 自绘,完成显示。



这套架构的优势是动态化能力强,服务端可定义任意样式,但缺点同样明显:


代码复杂度持续膨胀; 各业务代码耦合; 功能代码分散,AB 测试不友好; 难以扩展。

7.3.2 优化方向


为了降低复杂度,我们决定按以下方向优化:


中心化 -> 去中心化; 代码物理隔离; 内部闭环,动态开关; 组装者模式,方便扩展。

7.3.3 Section 框架架构设计


和 Part 一样,我们将一个卡片按照功能逻辑拆分为一个个 Section,形成一个 Section 池。不同卡片根据需要组装自己需要的 Section 即可。


Section 的 UI、数据、业务都是内部闭环的。不同 Section 互不感知,保证了代码物理隔离。


每个 Section 会与 ViewStub 绑定,布局可以按需加载。ViewStub 与 Section 是一对多的关系,Section 在查找 ViewStub 前会先去缓存池找,这样实现了多个 Section 修改同一个 View,保证 Section 拆得尽可能细。



上图中各模块的具体职责如下:


Section:某一切片的完整 UI+逻辑; ViewStub:与 Section 一对多,按需加载; Assembler:负责组装 Section,可根据页面异化; SectionManager:绑定数据、分发生命周期; DataCenter:Feeds 相关数据在各页面间的同步; IOC 框架:控制反转,用于 Section 与页面交互。

Section 整体的结构图如下:



7.3.4 落地效果


基于这套 Feeds 流框架,我们完成了历史卡片的梳理和重构:


接入36种 Feed,拆分52个 Section,下线28种 Feed; 重构4个核心页面,单类代码不超过500行; 单条 Feed 开发时间缩短一半; 广告/增值团队一个版本即完成历史功能迁移。

7.4 完善通信设计,保证代码隔离不被打破


Part 和 Section 之间会有许多通信的需求,比如数据同步,不同模块交互等。为了保证代码隔离不被打破,我们设计了比较完善的通信机制:


页面与 Part:ViewModel + LiveData; Part 与 Part:页面级事件,事件只在 PartHost 内部生效,无需注册与反注册; 页面与页面:DataCenter 数据同步。


7.5 异化逻辑抽离,复杂度持续可控


除此之外,另一种容易打穿架构的元素是异化逻辑。比如同一张卡片在不同的页面需要显示不同效果,比如数据埋点的参数需要从页面最外层传递到 Section。针对这种跨层级通信的场景,我们设计了一套 IOC 框架来完成依赖注入,将异化逻辑拆分到了一个个 IOC 实现类中。



IOC 机制的核心是:View 树回溯 + ViewTag 存储 + 接口中心管理。我们注册时将 IOC 实现类与 View 绑定,查找时基于 View 树来回溯,保证了 O(N) 的复杂度,且可以跨越任意层级。



过去,即使传递一个 pageId 参数,也要一层层传递:



现在,层级再深我们也可以很方便拿到需要的 IOC 实现。


08、升级方案


8.1 容灾设计


站在用户的角度,其实对重构与否并没有太大感知,用户只关心稳定性是否有下降。如此大规模的重构,一行代码引起的崩溃便能使几个月的努力功亏一篑。我们上线前的首要目标便是保证用户使用不受影响,不求有功,但求无过。


因此,我们在上线前做了很多容灾设计,保证空间的核心功能可用性。



8.1.1 动态开关


我们在空间的中间层埋了配置,能通过配置下架任意的 Part 或 Section。业务层编写代码时不用再单独为每个小模块添加开关,只要基于框架做好细粒度的拆分即可。


8.1.2 崩溃保护


同时,我们做了崩溃保护的设计,保证非核心功能崩溃不会影响核心功能的使用:


崩溃时进行关键词匹配,达到指定频率时禁用/降级相关功能; 自动对 Part/Section/页面/Feed 做关键词匹配,无需注册; 非必要功能可手动注册关键词,添加保护。

8.2 性能监控


同时,为了防止性能劣化,我们做了很多性能监控。


针对线上:


利用手 Q RMonitor 框架的监控和我们自己上报的滑动流畅度指标,来监控页面整体的流畅度; 通过在框架层打点,来监控每一个 Part、Section 或 Feed 的耗时。有劣化的模块引入时能快速发现; 实现 RFWTracer 框架,自动在页面启动流程中打点,统计页面启动各阶段的耗时。

针对线下:


我们基于 ARTMethodHook 框架,实现对具体 View 耗时的监控,能快速定位到出问题的控件,节约开发定位性能问题的时间。


整体监控体系如图:



实际效果如图:



09、性能优化


第一次灰度后,我们尴尬地发现启动速度并没有大幅提升,流畅率甚至发生了降低。因此我们做了首屏启动和流畅度的专项优化:


9.1 首屏启动优化


我们重新梳理了启动流程中的数据处理,在启动前和启动后做了一定优化:




  • 布局异步渲染


我们将首屏启动前,会根据缓存提前计算需要的布局,实现布局异步预加载。同时,为了保证 Context 的正确性,我们 Hook 了 Activity 的启动流程,提前准备好空的 Activity 对象用于异步 inflate,并在启动后绑定真实的 Context。




  • 精准预加载


在首屏启动前读取缓存,提前计算首屏 Feed 对应的 Section 布局并异步加载。



  • 生命周期扩展


扩展 Part 生命周期,各个 Part 的次要功能在首屏展示后初始化。



  • 优化后的效果


空间好友动态页的冷启动速度提升56%,热启动速度提升53%。


9.2 列表性能优化


经过分析,我们发现列表卡顿的原因集中在两点:


Item 复用率低,导致频繁创建新 View; 布局嵌套多,测量较慢。

解决思路:


边滑边异步 inflate:为了解决频繁创建新 View 的问题,我们在滑动时,会提前计算后面卡片所需的 ViewStub,并提前异步加载好。 自定义组件,降低层级,提前计算高度:列表中部分组件测量性能较差,比如部分嵌套 RecyclerView 的组件,会频繁触发子 RecyclerView 的测量,拉高整体测量耗时。对于这些组件,我们使用自定义组件的方式进行了替换。降低布局层级,并且提前计算高度,设置布局的高度为固定值,防止频繁测量。

优化后的效果:完成优化后,空间首页 FPS 完成了反超,相比老版本提升了 4.9%。


10、项目重构成果总结


从我们 AB 测试的实验数据来看,重构的整体结果是比较正向的,代码质量提升与性能提升带来了业务指标的提升,业务指标的提升也带来广告指标的提升。



11、展望


空间的代码历史悠久,错综复杂,使得空间业务在很长一段时间都处于维护状态,难以快速开发新的需求。最大的三个模块是压在空间业务上的三座大山:Feeds 流、相册和发表。通过这次架构升级,我们完成空间底层架构的焕新,完全重写了最复杂的 Feeds 流场景,同时相册模块也已经重构了一半。等剩余模块重构完成,空间的祖传代码就被全部重写了。面向未来,我们也能够更迅速地支撑新需求的落地,让十八岁的 QQ 空间焕然新生,重新上路。欢迎转发分享~


-End-


原创作者|尹述迪

收起阅读 »

单线程 Redis 如此快的 4 个原因

本文翻译自国外论坛 medium,原文地址:levelup.gitconnected.com/4-reasons-w… 作为内存数据存储,Redis 以其速度和性能而闻名,通常被用作大多数后端服务的缓存解决方案。 然而,在 Redis 内部采用的也只是单线程的...
继续阅读 »

本文翻译自国外论坛 medium,原文地址:levelup.gitconnected.com/4-reasons-w…


作为内存数据存储,Redis 以其速度和性能而闻名,通常被用作大多数后端服务的缓存解决方案。


然而,在 Redis 内部采用的也只是单线程的设计。


为什么 Redis 单线程设计会带来如此高的性能?如果利用多个线程并发处理请求不是更好吗?


在本文中,我们将探讨使 Redis 成为快速高效的数据存储的设计选择。


长话短说


Redis 的性能可归因于 4 个主要因素



  • 基于内存存储

  • 优化的数据结构

  • 单线程架构

  • 非阻塞IO


让我们一一剖析一下。



推荐博主开源的 H5 商城项目waynboot-mall,这是一套全部开源的微商城项目,包含三个项目:运营后台、H5 商城前台和服务端接口。实现了商城所需的首页展示、商品分类、商品详情、商品 sku、分词搜索、购物车、结算下单、支付宝/微信支付、收单评论以及完善的后台管理等一系列功能。 技术上基于最新得 Springboot3.0、jdk17,整合了 MySql、Redis、RabbitMQ、ElasticSearch 等常用中间件。分模块设计、简洁易维护,欢迎大家点个 star、关注博主。


github 地址:github.com/wayn111/way…



基于内存存储




Redis 是在内存中进行键值存储。


Redis 中的每次读写操作都相当于从内存的变量中进行读写。


访问内存比直接访问磁盘快几个数量级,因此Redis 比其他数据存储快得多。


优化的数据结构




作为内存数据存储,Redis 利用各种底层数据结构来高效存储数据,无需担心如何将它们持久化到持久存储中。


例如,Redis list 是使用链表实现的,它允许在列表的头部和尾部附近进行恒定时间 O(1) 插入和删除。


另一方面,Redis sorted set 是通过跳跃列表实现的,可以实现更快的查询和插入。


简而言之,无需担心数据持久化,Redis 中的数据可以更高效地存储,以便通过不同的数据结构进行快速检索。


单线程




Redis 中的写入和读取速度非常快,并且 CPU 使用率从来不是 Redis 关心的问题。


根据 Redis 官方文档,在普通 Linux 系统上运行时,Redis 每秒最多可以处理 100 万个请求。


通常瓶颈来自于网络 I/O, Redis 中的处理时间大部分浪费在等待网络 I/O 上。


虽然多线程架构允许应用程序通过上下文切换并发处理任务,但这对 Redis 的性能增益很小,因为大多数线程最终会在 I/O 中被阻塞。


所以 Redis 采用单线程架构,有如下好处



  • 最大限度地减少由于线程创建或销毁而产生的 CPU 消耗

  • 最大限度地减少上下文切换造成的 CPU 消耗

  • 减少锁开销,因为多线程应用程序需要锁来进行线程同步,而这容易出现错误

  • 能够使用各种“线程不安全”命令,例如 Lpush


非阻塞I/O




为了处理传入的请求,服务器需要在套接字上执行系统调用,以将数据从网络缓冲区读取到用户空间。


这通常是阻塞操作,线程被阻塞并且在完全接收到来自客户端的数据之前不能执行任何操作。


为什么我们不能在只有确定套接字中的数据已准备好读取时,才执行系统调用嘞?


这就是 I/O 多路复用发挥作用的地方。


I/O 多路复用模块同时监视多个套接字,并且仅返回可读的套接字。


准备读取的套接字被推送到单线程事件循环,并由相应的处理程序使用响应式模型进行处理。


总之,



  • 网络 I/O 速度很慢,因为其阻塞特性,

  • Redis 收到命令后可以快速执行,因为这在内存中执行,操作速度很快,


所以 Redis 做出了以下决定,



  • 使用 I/O 多路复用来缓解网络 I/O 缓慢问题

  • 使用单线程架构减少锁开销


结论




综上所述,单线程架构是 Redis 团队经过深思熟虑的选择,并且经受住了时间的考验。


尽管是单线程,Redis 仍然是性能最高、最常用的内存数据存储之一。

作者:waynaqua
来源:juejin.cn/post/7257783692563611685

收起阅读 »

SpringBoot可以同时处理多少请求?

SpringBoot是一款非常流行的Java后端框架,它可以帮助开发人员快速构建高效的Web应用程序。但是,许多人对于SpringBoot能够同时处理多少请求的疑问仍然存在。在本篇文章中,我们将深入探讨这个问题,并为您提供一些有用的信息。 首先,我们需要了解一...
继续阅读 »

SpringBoot是一款非常流行的Java后端框架,它可以帮助开发人员快速构建高效的Web应用程序。但是,许多人对于SpringBoot能够同时处理多少请求的疑问仍然存在。在本篇文章中,我们将深入探讨这个问题,并为您提供一些有用的信息。


首先,我们需要了解一些基本概念。在Web应用程序中,请求是指客户端向服务器发送的消息,而响应则是服务器向客户端返回的消息。在高流量情况下,服务器需要能够同时处理大量的请求,并且尽可能快地响应这些请求。这就是所谓的“并发处理”。


SpringBoot使用的是Tomcat作为默认的Web服务器。Tomcat是一种轻量级的Web服务器,它可以同时处理大量的请求。具体来说,Tomcat使用线程池来管理请求,每个线程都可以处理一个请求。当有新的请求到达时,Tomcat会从线程池中选择一个空闲的线程来处理该请求。如果没有可用的线程,则该请求将被放入队列中,直到有线程可用为止。


默认情况下,SpringBoot会为每个CPU内核创建一个线程池。例如,如果您的服务器有4个CPU内核,则SpringBoot将创建4个线程池,并在每个线程池中创建一定数量的线程。这样可以确保服务器能够同时处理多个请求,并且不会因为线程过多而导致性能下降。


当然,如果您需要处理大量的请求,您可以通过配置来增加线程池的大小。例如,您可以通过修改application.properties文件中的以下属性来增加Tomcat线程池的大小:


server.tomcat.max-threads=200

上述配置将使Tomcat线程池的最大大小增加到200个线程。请注意,增加线程池大小可能会导致服务器资源消耗过多,因此应该谨慎使用。


除了Tomcat之外,SpringBoot还支持其他一些Web服务器,例如Jetty和Undertow。这些服务器也都具有良好的并发处理能力,并且可以通过配置来调整线程池大小。


最后,需要注意的是,并发处理能力不仅取决于Web服务器本身,还取决于应用程序的设计和实现。如果您的应用程序设计得不够好,那么即使使用最好的Web服务器也无法达到理想的并发处理效果。因此,在开发应用程序时应该注重设计和优化。


总之,SpringBoot可以同时处理大量的请求,并且可以通过配置来增加并发处理能力。但是,在实际应用中需要根据具体情况进行调整,并注重应用程序的设计和优化。希望本篇文章能够帮助您更好地理解SpringBo

作者:韩淼燃
来源:juejin.cn/post/7257732392541618237
ot的并发处理能力。

收起阅读 »

适合小公司的自动化部署脚本

背景(偷懒) 在小小的公司里面,挖呀挖呀挖。快挖不动了,一件事重复个5次,还在人肉手工,身体和心理就开始不舒服了,并且违背了个人的座右铭:“偷懒”是人类进步的第一推动力。 每次想要去测试环境验证个新功能,又或者被测试无情的催促着部署新版本后;都需要本地打那个2...
继续阅读 »

背景(偷懒)


在小小的公司里面,挖呀挖呀挖。快挖不动了,一件事重复个5次,还在人肉手工,身体和心理就开始不舒服了,并且违背了个人的座右铭:“偷懒”是人类进步的第一推动力


每次想要去测试环境验证个新功能,又或者被测试无情的催促着部署新版本后;都需要本地打那个200多M的jar包;以龟速般的每秒几十KB网络,通过ftp上传到服务器;用烂熟透的jps命令查找到进程,kill后,重启服务。


是的,我想偷懒,想从已陷入到手工部署的沼泽地里走出来。如何救赎?


自我救赎之路


我的诉求很简单,想要一款“一键CI/CD的工具”,然后可以继续偷懒。为了省事,我做了以下工作


找了一款停止服务的脚本,并做了小小的优化


首推 陈皮大哥的停服脚本(我在里面加了个sleep 5);脚本见下文。只需要修改 APP_MAINCLASS的变量“XXX-1.0.0.jar”替换为自己jar的名字即可,其它不用动


该脚本主要是通过jps + jar的名字获得进程号,进行kill。( 脚本很简单,注释也很详细,就不展开了,感兴趣可以阅读下,不到5分钟,写过代码的你能看懂的)


把以下脚本保存为stop.sh


#!/bin/bash
# 主类
APP_MAINCLASS="XXX-1.0.0.jar"
# 进程ID
psid=0
# 记录尝试次数
num=0
# 获取进程ID,如果进程不存在则返回0,
# 当然你也可以在启动进程的时候将进程ID写到一个文件中,
# 然后使用的使用读取这个文件即可获取到进程ID
getpid() {
javaps=`jps -l | grep $APP_MAINCLASS`
if [ -n "$javaps" ]; then
psid=`echo $javaps | awk '{print $1}'`
else
psid=0
fi
}
stop() {
getpid
num=`expr $num + 1`
if [ $psid -ne 0 ]; then
# 重试次数小于3次则继续尝试停止服务
if [ "$num" -le 3 ];then
echo "attempt to kill... num:$num"
kill $psid
sleep 5
else
# 重试次数大于3次,则强制停止
echo "force kill..."
kill -9 $psid
fi
# 检查上述命令执行是否成功
if [ $? -eq 0 ]; then
echo "Shutdown success..."
else
echo "Shutdown failed..."
fi
# 重新获取进程ID,如果还存在则重试停止
getpid
if [ $psid -ne 0 ]; then
echo "getpid... num:$psid"
stop
fi
else
echo "App is not running"
fi
}
stop

编写2行的shell 启动脚本


修改脚本中的XXX-1.0.0.jar为你自己的jar名称即可。保存脚本内容为start.sh。jvm参数可自行修改


basepath=$(cd `dirname $0`; pwd)
nohup java -server -Xmx2g -Xms2g -Xmn1024m -XX:PermSize=128m -Xss256k -XX:+DisableExplicitGC -XX:+UseParNewGC -XX:-UseAdaptiveSizePolicy -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:+UseCMSCompactAtFullCollection -XX:LargePageSizeInBytes=128m -XX:+UseFastAccessorMethods -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=70 -XX:+HeapDumpOnOutOfMemoryError -XX:+PrintGCDetails -Xloggc:logs/gc.log -XX:+PrintGCDateStamps -XX:+PrintGCTimeStamps -XX:HeapDumpPath=logs/dump.hprof -XX:ParallelGCThreads=4 -jar $basepath/XXX-1.0.0.jar &>nohup.log &

复用之前jenkins,自己写部署脚本


脚本一定要放到 Post Steps里


1689757456174.png


9行脚本,主要干了几件事:



  • 备份正在运行的jar包;(万一有啥情况,还可以快速回滚)

  • 把jenkins上打好的包,复制到目标服务上

  • 执行停服脚本

  • 执行启动服务脚本


脚本见下文:


ssh -Tq $IP << EOF 
source /etc/profile
#进入应用部署目录
cd /data/app/test
##备份时间戳
DATE=`date +%Y-%m-%d_%H-%M-%S`
#删除备份jar包
rm -rf /data/app/test/xxx-1.0.0.jar.bak*
#备份历史jar包
mv /data/app/test/xxx-1.0.0.jar /data/app/test/xxx-1.0.0.jar.bak$DATE
#从jenkins上拉取最新jar包
scp root@$jenkisIP:/data/jenkins/workspace/test/target/XXX-1.0.0.jar /data/app/test
# 执行停止应用脚本
sh /data/app/test/stop.sh
#执行重启脚本
sh /data/app/test/start.sh
exit
EOF

注:



  • $IP 是部署服务器ip,$jenkisIP 是jenkins所在的服务器ip。 在部署前请设置jenkins服务器和部署服务器之间ssh免密登录

  • /data/app/test 是部署jar包存放路径

  • stop.sh 是上文的停止脚本

  • start.sh 是上文的启动脚本


总结


如果不想把时间浪费在本地打包,忍受不了上传jar包的龟速网络,人肉停服和启动服务。请尝试下这款自动部署化脚本。小小的投入,带来大大的回报。


原创不易,请 点赞,留言,关注,转载 4暴击^^


参考资料:

xie.infoq.cn/article/52c…
Linux ----如何使用 kill 命令优雅停止 Java 服务

blog.csdn.net/m0_46897923…

作者:程序员猪佩琪
来源:juejin.cn/post/7257440759569055802
--ssh免密登录

收起阅读 »

前端入门Docker最佳实践

本地安装及相关库 下载 Docker Desktop 双击安装即可。 作用: 打包:就是把你软件运行所需的依赖、第三方库、软件打包到一起,变成一个安装包 分发:你可以把你打包好的“安装包”上传到一个镜像仓库,其他人可以非常方便的获取和安装 部署:拿着“安...
继续阅读 »

本地安装及相关库



  1. 下载 Docker Desktop 双击安装即可。

  2. 作用:



  • 打包:就是把你软件运行所需的依赖、第三方库、软件打包到一起,变成一个安装包

  • 分发:你可以把你打包好的“安装包”上传到一个镜像仓库,其他人可以非常方便的获取和安装

  • 部署:拿着“安装包”就可以一个命令运行起来你的应用,自动模拟出一摸一样的运行环境,不管是在 Windows/Mac/Linux。


启动报错解决



  • 报错截图


image.png



  • 解决方法:


控制面板->程序->启用或关闭 windows 功能,开启 Windows 虚拟化和 Linux 子系统(WSL2)


image.png


命令行安装 Linux 内核


wsl --install -d Ubuntu


设置开机启动 Hypervisor


bcdedit /set hypervisorlaunchtype auto


设置默认使用版本2


wsl --set-default-version 2


查看 WSL 是否安装正确


wsl --list --verbose


应该如下图,可以看到一个 Linux 系统,名字你的不一定跟我的一样,看你安装的是什么版本。


并且 VERSION 是 2


image.png


切换镜像加速源


镜像加速器镜像加速器地址
Docker 中国官方镜像registry.docker-cn.com
DaoCloud 镜像站f1361db2.m.daocloud.io
Azure 中国镜像dockerhub.azk8s.cn
科大镜像站docker.mirrors.ustc.edu.cn
阿里云ud6340vz.mirror.aliyuncs.com
七牛云reg-mirror.qiniu.com
网易云hub-mirror.c.163.com
腾讯云mirror.ccs.tencentyun.com

"registry-mirrors": ["https://registry.docker-cn.com"]


image.png


目录挂载:



  • 使用 Docker 运行后,我们改了项目代码不会立刻生效,需要重新buildrun,很是麻烦。

  • 容器里面产生的数据,例如 log 文件,数据库备份文件,容器删除后就丢失了。


挂载方式



  • bind mount 直接把宿主机目录映射到容器内,适合挂代码目录和配置文件。可挂到多个容器上

  • volume 由容器创建和管理,创建在宿主机,所以删除容器不会丢失,官方推荐,更高效,Linux 文件系统,适合存储数据库数据。可挂到多个容器上

  • tmpfs mount 适合存储临时文件,存宿主机内存中。不可多容器共享。


文档参考:docs.docker.com/storage/


多容器通信


项目往往都不是独立运行的,需要数据库、缓存这些东西配合运作。


文档参考:docs.docker.com/engine/refe…


创建一个名为test-net的网络:


docker network create test-net


运行 Redis 在 test-net 网络中,别名redis


docker run -d --name redis --network test-net --network-alias redis redis:latest


Docker-Compose



  • 如果你是安装的桌面版 Docker,不需要额外安装,已经包含了。

  • 如果是没图形界面的服务器版 Docker,你需要单独安装 安装文档

  • 运行docker-compose检查是否安装成功


要把项目依赖的多个服务集合到一起,我们需要编写一个docker-compose.yml文件,描述依赖哪些服务


参考文档:docs.docker.com/compose/


docker-compose.yml 文件所在目录,执行:docker-compose up就可以跑起来了。


命令参考:docs.docker.com/compose/ref…


常用命令


docker ps 查看当前运行中的容器


docker images 查看镜像列表


docker rm container-id 删除指定 id 的容器


docker stop/start container-id 停止/启动指定 id 的容器


docker rmi image-id 删除指定 id 的镜像


docker volume ls 查看 volume 列表


docker network ls 查看网络列表


编译 docker build -t test:v1 . -t 设置镜像名字和版本号


在后台运行只需要加一个 -d 参数docker-compose up -d


查看运行状态:docker-compose ps


停止运行:docker-compose stop


重启:docker-compose restart


重启单个服务:docker-compose restart service-name


进入容器命令行:docker-compose exec service-name sh


查看容器运行log:docker-compose logs [service-na

作者:StriveToY
来源:juejin.cn/post/7256607606465380411
me]

收起阅读 »

拒绝复杂 if-else,前端策略模式实践

设计模式的重要性 为什么要学习和使用设计模式,我觉得原因主要有两点 解除耦合:设计模式的目的就是把 “不变的” 和 “可变的” 分离开,将 “不变的” 封装为统一对象,“可变的” 在具体实例中实现 定义统一标准:定义一套优秀代码的标准,相当于一份实现优秀代码...
继续阅读 »

设计模式的重要性


为什么要学习和使用设计模式,我觉得原因主要有两点



  1. 解除耦合:设计模式的目的就是把 “不变的” 和 “可变的” 分离开,将 “不变的” 封装为统一对象,“可变的” 在具体实例中实现

  2. 定义统一标准:定义一套优秀代码的标准,相当于一份实现优秀代码的说明书


在前端开发过程中面对复杂场景能能够更清晰的处理代码逻辑,其中策略模式在我的前端工作中的应用非常多,下面就展开讲讲策略模式在前端开发的具体应用


策略模式基础


策略模式的含义是:定义了一系列的算法,并将每个算法封装起来,使它们可以互相替换


我个人对于策略模式的理解,就是将原来写在一个函数中一整套功能,拆分为一个个独立的部分,从而达到解耦的目的。所以策略模式最好的应用场景,就是拆解 if-else,把每个 if 模块封装为独立算法


在面向对象的语言中,策略模式通常有三个部分



  • 策略(Strategy):实现不同算法的接口

  • 具体策略(Concrete Strategy):实现了策略定义的接口,提供具体的算法实现

  • 上下文(Context):持有一个策略对象的引用,用一个ConcreteStrategy 对象来配置,维护一个对 Strategy 对象的引用


这么看定义可能不太直观,这里我用 TS 面向对象的方式实现的一个计算器的策略模式例子说明一下


// 第一步: 定义策略(Strategy)
interface CalculatorStrategy {
calculate(a: number, b: number): number;
}

// 第二步:定义具体策略(Concrete Strategy)
class AddStrategy implements CalculatorStrategy {
calculate(a: number, b: number): number {
return a + b;
}
}

class SubtractStrategy implements CalculatorStrategy {
calculate(a: number, b: number): number {
return a - b;
}
}

class MultiplyStrategy implements CalculatorStrategy {
calculate(a: number, b: number): number {
return a * b;
}
}

// 第三步: 创建上下文(Context),用于调用不同的策略
class CalculatorContext {
private strategy: CalculatorStrategy;

constructor(strategy: CalculatorStrategy) {
this.strategy = strategy;
}

setStrategy(strategy: CalculatorStrategy) {
this.strategy = strategy;
}

calculate(a: number, b: number): number {
return this.strategy.calculate(a, b);
}
}

// 使用策略模式进行计算
const addStrategy = new AddStrategy();
const subtractStrategy = new SubtractStrategy();
const multiplyStrategy = new MultiplyStrategy();

const calculator = new CalculatorContext(addStrategy);
console.log(calculator.calculate(5, 3)); // 输出 8

calculator.setStrategy(subtractStrategy);
console.log(calculator.calculate(5, 3)); // 输出 2

calculator.setStrategy(multiplyStrategy);
console.log(calculator.calculate(5, 3)); // 输出 15

前端策略模式应用


实际上在前端开发中,通常不会使用到面向对象的模式,在前端中应用策略模式,完全可以简化为两个部分



  1. 对象:存储策略算法,并通过 key 匹配对应算法

  2. 策略方法:实现 key 对应的具体策略算法


这里举一个在最近开发过程应用策略模式重构的例子,实现的功能是对于不同的操作,处理相关字段的联动,在原始代码中,对于操作类型 opType 使用大量 if-else 判断,代码大概是这样的,虽然看起来比较少,但是每个 if 里面都有很多处理逻辑的话,整体的可读性的就会非常差了


export function transferAction() {
actions.forEach((action) => {
const { opType } = action

// 展示 / 隐藏字段
if (opType === OP_TYPE_KV.SHOW) { }
else if (opType === OP_TYPE_KV.HIDE) {}
// 启用 / 禁用字段
else if (opType === OP_TYPE_KV.ENABLE) { }
else if (opType === OP_TYPE_KV.DISABLE) {}
// 必填 / 非必填字段
else if (opType === OP_TYPE_KV.REQUIRED) { }
else if ((opType === OP_TYPE_KV.UN_REQUIRED) { }
// 清空字段值
else if (opType === OP_TYPE_KV.CLEAR && isSatify) { }
})
}

在使用策略模式重构之后,将每个 action 封装进单独的方法,再把所用的算法放入一个对象,通过触发条件匹配。这样经过重构后的代码,相比于原来的 if-else 结构更清晰,每次只要找到对应的策略方法实现即可。并且如果后续有扩展,只要继续新的增加策略方法就好,不会影响到老的代码


export function transferAction( /* 参数 */ ) {
/**
* @description 处理字段显示和隐藏
*/

const handleShowAndHide = ({ opType, relativeGroupCode, relativeCode }) => {}

/**
* @description // 启用、禁用字段(支持表格行字段的联动)
*/

const handleEnableAndDisable = ({ opType, relativeGroupCode, relativeCode }) => {}

/**
* @description 必填 / 非必填字段(支持表格行字段的联动)
*/

const handleRequiredAndUnrequired = ({ opType, relativeGroupCode, relativeCode }) => {}

/**
* @description 清空字段值
*/

const handleClear = ({ opType, relativeGroupCode, relativeCode }) => {}

// 联动策略
const strategyMap = {
// 显示、隐藏
[OP_TYPE_KV.SHOW]: handleShowAndHide,
[OP_TYPE_KV.HIDE]: handleShowAndHide,
// 禁用、启用
[OP_TYPE_KV.ENABLE]: handleEnableAndDisable,
[OP_TYPE_KV.DISABLE]: handleEnableAndDisable,
// 必填、非必填
[OP_TYPE_KV.REQUIRED]: handleRequiredAndUnrequired,
[OP_TYPE_KV.UN_REQUIRED]: handleRequiredAndUnrequired,
// 清空字段值
[OP_TYPE_KV.CLEAR]: handleClear,
}

// 遍历执行联动策略
actions.forEach((action) => {
const { opType, relativeGroupCode, relativeCode, value } = action

if (strategyMap[opType]) {
strategyMap[opType]({ /* 入参 */ })
}
})
}

总结


策略模式的优点在于:代码逻辑更清晰,每个策略对对应一个实现方法;同时遵循开闭原则,新的策略方法无需改变已有代码,所以非常适合处理或重构复杂逻辑的 if-else


在前端开发过程中,不需要遵循面向对象的应用方式,只需要通过对象存储策略算法,通过 key 匹配具体策略实现,就可以实

作者:WujieLi
来源:juejin.cn/post/7256721204300202042
现一个基础的策略模式

收起阅读 »

多端登录如何实现踢人下线

1:项目背景 或者你登录了PC端,这时候你登陆了APP或者小程序,这时候PC端的账号也会被强制下线 2:项目只有PC端 假设我们现在的项目只有PC端,没有小程序或者APP,那么这时候就是很简单了,用户的sessin(也就是所谓的Token)一般都是存储在re...
继续阅读 »

1:项目背景



或者你登录了PC端,这时候你登陆了APP或者小程序,这时候PC端的账号也会被强制下线


2:项目只有PC端


假设我们现在的项目只有PC端,没有小程序或者APP,那么这时候就是很简单了,用户的sessin(也就是所谓的Token)一般都是存储在redis中,session中包括用户ID等一些信息,当然还有一个最重要的就是登录的ip地址。


image.png


1:用户在登录的时候,从redis中获取用户session,如果没有就可以直接登录了


2:用户在另外一台电脑登录,从redis中获取到用户session,这时候用户session是有的,说明用户之前已经登录过了


3:这时候从用户session中获取IP,判断二者的ip是不是相同,如果不同,这时候就要发送一个通知给客户端,让另外一台设备登录的账号强制下线即可


3:项目有PC端和APP端和小程序端


当你的应用有PC端和APP端的时候,我们用户的session如果还是只存一个ip地址,那明显就是不够的,因为很多情况下,我们PC端和APP端是可以同时登录的,比如淘宝,京东等都是,也就是所谓的双端登录


这时候就会有多种情况


单端登录:PC端,APP端,小程序只能有一端登录
双端登录:允许其中二个端登录
三端登录:三个端都可以同时登录

对于三端可以同时登录就很简单,但是现在有个限制,就是app端只能登录一次,不能同时登录,也就是我一个手机登录了APP,另外一个手机登录的话,之前登录的APP端就要强制下线


所以我们的用户session存储的格式如下


{
userId:用户的id
clientType:PC端,小程序端,APP端
imei:就是设备的唯一编号(对于PC端这个值就是ip地址,其余的就是手机设备的一个唯一编号)
}


单端登录


首先我们要知道,用户登录不同的设备那么用户session是不一样的。对于单端登录,那么我们可以拿到用户的所有的session,然后根据clientType和imei号来强制将其它端的用户session删除掉,然后通知客户端强制下线


双端登录


同样拿到所有用户的session,然后根据自己的业务需求来判定哪一端需要强制下线,比如我们现在已经登录了PC端和APP端,这时候登录小程序,现在要让APP端的强制下线。


这时候登录之后获取用户所有的session,这时候会有二个用户session,首先拿到clientType = APP的session,然后来通知客户端这个端需要强制下线。


如果这时候我登录了PC端和一个APP端,这时候我用另外一台手机登录APP端,那么之前那台手机上登录的APP端就要被强制下线,这个时候仅通过clientType是不行的,因为我二个手机登录的clientType都是APP端。所以这时候就要根据imei号来判断了。因为不同的手机imei号是不一样的。


这时候我拿到用户所有的session



PC端的session
sessionA{
userId: 1,
clientType: PC,
imei: "123"
}

APP端的session
sessionA{
userId: 1,
clientType: APP,
imei: "12345"
}

这时候我从另外一台手机登录的时候,生成的session应该是这样的


 APP端的session
sessionA{
userId: 1,
clientType: APP,
imei: "1234567"
}

我发现同一个clientType的session已经有了,这时候我要判断imei号是否一样,imei一样说明是同一台设备,不同说明不是同一台设备,我们只需要把对应设备的账号强制下线即可了


总结


不管是单端登录,双端登录还是多端登录,我们都是根据用户session来判断。只要根据clientType和imei号来就可以满足我们大部

作者:我是小趴菜
来源:juejin.cn/post/7213598216884486204
分的踢人下线需求了。

收起阅读 »

网站“重定向次数过多”问题排查

ERR_TOO_MANY_REDIRECTS 不久前部署了一个网站,访问时却直接打不开: 当前无法使用此页面 xxx.com 重定向次数过多 若要解决此问题,请尝试清除 Cookie. ERR_TOO_MANY_REDIRECTS 我的网络架构如下: gr...
继续阅读 »

ERR_TOO_MANY_REDIRECTS


不久前部署了一个网站,访问时却直接打不开:



当前无法使用此页面 xxx.com 重定向次数过多


若要解决此问题,请尝试清除 Cookie.


ERR_TOO_MANY_REDIRECTS



我的网络架构如下:


graph LR
subgraph A["VLAN"]
subgraph B["Local Server"]
C("nginx server")
end
subgraph D["VPS"]
E("nginx server")
end
end
F["Internet"] --http/https--> E
E --http--> C


其中网站部署在 Local Server 的 Nginx 服务器上,在 VPS 上再用 Nginx 做反向代理,并不复杂。


Nginx


VPS 上的 Nginx 主要配置如下:


	upstream mycloud {
# Local server
server archlinux:5173;
}

server {
listen 443 ssl;
server_name xxx.com;
...
#证书
ssl_certificate /data/nginx/cert/xxx.com_bundle.pem;
ssl_certificate_key /data/nginx/cert/xxx.com.key;
...
location / {
proxy_pass http://mycloud;
...
}
}

server {
listen 80;
server_name xxx.com;
...
#核心转发代码
rewrite ^(.*)$ https://${server_name}$1 permanent;
}

上述配置主要做了两个事情,一是将访问的 https 流量代理到 archlinux:5173,二是将访问的 http 请求转发到 https。


怎么看都不像能导致无限重定向的样子。


再三确认配置无误后,我看了一眼浏览器 Network,在一众 301 的列表中,请求全被重定向到了一个网址:104.21.27.176,再一查,好家伙,原来是 CloudFlare Load Balancer!


这时我才想起来曾经在 Cloudflare 上开启了 DNS 服务。


Cloudflare


那么问题来了,会是 DNS 服务导致的无限重定向吗?


登录 Cloudflare 看了一下,SSL/TLS 加密模式 设置成了 flexible , 这下真相大白了!


已知 SSL/TLS加密模式 有如下选项:





  • 关闭(不安全)


    未应用加密




  • 灵活


    加密浏览器与 Cloudflare 之间的流量




  • 完全


    端到端加密,使用服务器上的自签名证书




  • 完全(严格)


    端到端加密,但服务器上需要有受信任的 CA 证书或 Cloudflare Origin CA 证书





由于应用的是 灵活 , 所以只加密了浏览器与 Cloudflare 之间的流量,并没有加密 Cloudflare 到 VPS 服务器的流量。


什么原理呢:


当域名的 DNS 记录指向 Cloudflare 后,所有的流量都将经过 Cloudflare 的代理服务器。


而在 Nginx 配置中,我使用了 rewrite 规则将 HTTP 请求重定向到 HTTPS。然而,由于 Cloudflare 代理了流量,它将请求转发给 VPS 服务器时,仍然是通过 HTTP 连接进行。这导致了一个循环:请求通过 HTTPS 到达 Cloudflare,然后被转发为 HTTP 请求到 VPS,然后 VPS 再次重定向到 HTTPS, 无限循环了。


问题清楚了,解决方案有如下选择:




  1. 在 Nginx 中取消 http 到 https 的 rewrite。




  2. 加密 Cloudflare 到 VPS 的流量。




  3. 在 Nginx 配置中使用代理服务器的原始协议(X-Forwarded-Proto)来判断是否启用 HTTPS,例如


    if ($http_x_forwarded_proto != "https") {
    rewrite ^(.*)$ https://${server_name}$1 permanent;
    }

    这将确保当请求通过 HTTPS 到达 Cloudflare 时,Cloudflare 会在转发请求时设置 X-Forwarded-Proto 头部字段为 https,然后服务器将检查该字段,并决定是否进行重定向。




毫无疑问最简单高效的方法是直接将 SSL/TLS 加密模式 设置成 完全(严格) 就行了。


点击一下选项,测试网页,问题解决。


Conclusion


从这个事情需要认识到,在使用 Cloudflare 或者其它服务时,要确保 Nginx 配置和 Cloudflare 设置之间的一致性,以避免任何不必要

作者:looko
来源:juejin.cn/post/7254572372136738853
的重定向或连接问题。

收起阅读 »

当你的服务挂了,该怎么排查服务挂了的原因

1. 背景 某天凌晨一点多,服务挂了,日志戛然而止,grafanar监控内存,cpu、磁盘都是正常的,该怎么去排查 2. 排查手段 观测日志、是否有程序触发关闭jvm进程,system.exit(),观测内存,cpu,磁盘,是否有因为机器资源不够分配的问题导...
继续阅读 »

1. 背景


某天凌晨一点多,服务挂了,日志戛然而止,grafanar监控内存,cpu、磁盘都是正常的,该怎么去排查


2. 排查手段



观测日志、是否有程序触发关闭jvm进程,system.exit(),观测内存,cpu,磁盘,是否有因为机器资源不够分配的问题导致进程被机器kill




观测机器的操作日志/var/log/messages,直接搜索kill 的日志



messages 日志是核心系统日志文件。它包含了系统启动时的引导消息,以及系统运行时的其他状态消息。IO 错误、网络错误和其他系统错误都会记录到这个文件中。其他信息,比如某个人的身份切换为 root,也在这里列出。如果服务正在运行,比如 DHCP 服务器,您可以在 messages 文件中观察它的活动。通常,/var/log/messages 是您在做故障诊断时首先要查看的文件。


/var/log/messages文件中存放的就是系统的日志信息,当内核程序调试时,printk语句所产生的信息显示不出来的时候,就使用cat /var/log/messages文件的方法,查看所打印出的信息.



都没问题了,直接联系运维看一下,开发也没有绝对百分百的手段判断进程挂的原因,最终判断为阿里云系统错误导致机器重启


作者:斯瓦辛武
来源:juejin.cn/post/7254542743098818621

收起阅读 »

了解短信的实现原理以及验证码短信API

前言 短信作为一种便捷、快速的通信方式,已经在我们的日常生活中得到广泛应用。无论是个人通信、企业沟通还是身份验证等场景,短信都发挥着重要的作用。而实现短信功能的核心是短信实现原理和验证码短信API。 本文将介绍短信实现的基本原理以及 验证码短信API,帮助读者...
继续阅读 »

前言


短信作为一种便捷、快速的通信方式,已经在我们的日常生活中得到广泛应用。无论是个人通信、企业沟通还是身份验证等场景,短信都发挥着重要的作用。而实现短信功能的核心是短信实现原理和验证码短信API。


本文将介绍短信实现的基本原理以及 验证码短信API,帮助读者更好地了解短信技术和应用。


实现原理(步骤)





  1. 触发事件:通知短信的实现通常是作为某种事件的响应而触发的。例如,用户完成了注册、下单、密码重置等操作,这些事件可以触发发送通知短信。




  2. 业务逻辑处理:在触发事件后,相关的业务逻辑将被执行。这可能包括生成通知内容、确定接收者等。




  3. 调用短信服务提供商的API:为了发送短信,系统将调用短信服务提供商的API。这些提供商通常是专门的短信网关或通信运营商,提供发送短信的基础设施和服务。




  4. 构建短信内容:在调用短信服务提供商的API之前,系统需要构建短信的内容。这包括编写文本消息、添加动态变量或链接等。通常,短信内容可以包含特定的占位符,用于在发送时插入动态数据,如用户名、订单号等。




  5. 调用短信服务API发送短信:使用短信服务提供商的API,系统将发送短信请求。这通常涉及向API端点发送HTTP请求,包括目标手机号码、短信内容和身份验证信息等。




  6. 短信服务商处理:短信服务提供商接收到发送短信的请求后,会进行一系列的处理步骤。这可能包括验证发送者的身份、检查短信内容的合法性、处理短信队列等。




  7. 短信传递:一旦短信服务提供商完成处理,它会将短信传递到相应的目标手机号码。这通常是通过与移动网络运营商之间的通信渠道实现的。




  8. 接收短信:目标手机号码的手机将接收到短信,并在短信应用程序中显示。用户可以查看和阅读通知短信的内容。




验证码短信API



在短信实现原理中,必不可少的一个东西就是 —— 短信API,只有调用了 短信API 我们才能把短信发送出去。


在 短信API 中最常见的就是 验证码短信API通知短信API。在之前说过了通知短信,今天就说一说 验证码短信API。短信API 我们可以去网上各个平台查看,我这里使用的是 APISpace验证码短信API~


以 JavaScript 为例的调用示例代码:


var data = "{"msg":"Eolinker】尊敬的用户{$var},欢迎联调通知短信。","params":"15800000000,张先生;13200000000,王小姐","sendtime":"","extend":"","uid":""}"

$.ajax({
"url":"https://eolink.o.apispace.com/sms-notify/notify",
"method": "POST",
"headers": {
"X-APISpace-Token":"",
"Authorization-Type":"apikey",
"Content-Type":"application/json"
},
"data": data,
"crossDomain": true
})
.done(function(response){})
.fail(function(jqXHR){})

验证码短信应用场景




  1. 注册和登录验证:许多网站、应用和服务在用户注册和登录过程中使用验证码短信来验证用户的身份。用户在提供手机号码后,会收到包含验证码的短信,然后需要输入验证码才能完成注册或登录过程。这样可以确保用户提供的手机号码是有效的,并增加账户的安全性。




  2. 密码重置和账户安全:当用户忘记密码或账户出现异常时,验证码短信可以用于重置密码或确保账户安全。通过发送验证码短信,用户可以通过验证自己的身份来重新设置密码,或者确认是否进行了某些账户操作,如更改手机号码或绑定新设备。




  3. 手机号码验证:许多平台需要验证用户提供的手机号码的真实性,以保护用户账户的安全性。验证码短信可以用于验证用户拥有指定手机号码,并通过让用户输入验证码来确认其所有权。




  4. 交易和支付安全:在电子商务和移动支付中,验证码短信被广泛用于交易和支付的安全验证。用户在进行支付或敏感操作时,会收到包含验证码的短信,需要输入正确的验证码才能完成交易或操作,以防止未经授权的访问和欺诈行为。




  5. 帐户活动通知:验证码短信也可以用于向用户发送帐户活动通知,例如当用户进行重要操作、更改账户信息、进行高风险活动等时,发送验证码短信以提醒用户并增加账户的安全性。




结束语


通过本文的介绍,我们对短信实现原理以及 验证码短信API 有了一定的了解。短信作为一种简单而高效的通信方式,在各个领域都发挥着重要的作用。验证码短信API为开发者提供了便捷的工具,使他们能够轻松地集成和使用验证码短信功能。无论是个人用户还是企业开发者,都可以利用短信技术和API来实现更安全、高效的通信和身份验证。随着移动通信技术的不断发展,我们相信短信技术将继续在各个领域发挥重要作用,并为我们的生活带

作者:爱分享的程序员
来源:juejin.cn/post/7254384497658429499
来更多便利和安全性。

收起阅读 »

我的师父把 「JWT 令牌」玩到了极致

你好,我是悟空。 我的师父是唐玄奘~ 西游记的故事想必大家在暑假看过很多遍了,为了取得真经,唐玄奘历经苦难,终于达成。 在途经各国的时候,唐玄奘都会拿出一个通关文牒交给当地的国王进行盖章,方能通过。 本篇目录如下: 通关文牒 通关文牒就是唐朝官方发的一个凭证...
继续阅读 »

你好,我是悟空。


我的师父是唐玄奘~


西游记的故事想必大家在暑假看过很多遍了,为了取得真经,唐玄奘历经苦难,终于达成。


在途经各国的时候,唐玄奘都会拿出一个通关文牒交给当地的国王进行盖章,方能通过。


本篇目录如下:


图片


通关文牒


通关文牒就是唐朝官方发的一个凭证,证明持有人来自东土大唐,一般是使臣持有。


有了这个凭证后,到其他国家,比如女儿国国王看到这个凭证后,就会放行。


下面来一张西游记中通关文牒的生命周期图。


图片


长安是一个颁发凭证(通关文牒)的微服务节点,乌鸡国、女儿国和大雷音寺等都是集群中的一个微服务节点,唐玄奘拿着凭证访问各国。


那为什么别的国家认可这个凭证呢?


那是因为当时的唐朝非常强大,有很多国家都要向唐朝朝贡,与唐朝交好有很多好处的~


朝贡也有篇故事哦~唐太宗把微服务的“心跳机制”玩到了极致!


唐太宗在通关文牒上写道:“倘到西邦诸国,不灭善缘,照牒放行,须至牒者。


图片


意思就是说唐玄奘法师是我们唐朝的使臣,如果途经诸侯国,希望大家放行。


贞观之治时期的唐朝是在经济文化上都无比繁盛,国力强盛,周边国家都希望和唐朝建立友好关系,看到是唐朝使臣来了,好生招待下,然后盖章放行,给唐朝留个好印象。


在安全架构中,凭证 出现得太频繁了,比如我们在网关这一层加的校验令牌,其实就是校验凭证。


凭证是什么


凭证(Credentials)的出现就是系统保证它与用户之间的承诺是双方当时真实意图的体现,是准确、完整且不可抵赖的。


那唐太宗给唐玄奘的通关文牒就是一个凭证,上面盖着唐朝的官印、唐太宗的亲笔,这充分体现了持有者是拥有一个可信的令牌的,而且这个通关文牒上的官印是不可篡改的,如果改了,其他国家就不认了


上面这种模式其实对应的是一种普通的认证授权模式,而大名鼎鼎的 OAuth 2.0 认证授权模式虽然有五种模式,但他们殊途同归,最后的目的都是生成一个凭证给到客户端,让客户端持有这个凭证来访问资源。关于 OAuth2.0 本篇不做展开。


关于凭证的存储方案,业界的安全架构中有两种方案:



  • Cookie-Session 模式

  • JWT 方案


Cookie-Session 模式


流程图如下:


图片


用户登录认证通过后,后端会存放该客户端的身份信息,也就是存放到 session 中,session 可以用来区分不同,然后返回一个 sessionId 给到客户端。


客户端将 sessionId 缓存在客户端。当客户端下次发送 HTTP 请求时,在 header 的 cookie 字段附带着 sessionId 发送给后端服务器。


后端服务器拿到 header 中的 sessionId,然后根据 sessionId 找到 session,如果 session 存在,则从 session 中解析出用户的身份信息,然后执行业务逻辑。


我们都知道 HTTP 协议是一种无状态的传输协议,无状态表示对一个事务的处理没有上下文的记忆能力,每一个 HTTP 请求都是完全独立的。但是 Cookie-Seesion 模式却和 HTTP 无状态特性相悖,因为客户端访问资源时,是携带第一次拿到的 sessionId 的,让服务端能够顺利区分出发送请求的用户是谁。


服务端对 session 的管理,就是一种状态管理机制,该机制存储了每个在线用户的上下文状态,再加上一些超时自动清理的管理措施。Cookie-Session 也是最传统但今天依旧应用到大量系统中,由服务端与客户端联动来完成的状态管理机制。


放到西游记中,如果用这种 Cookie-Session 模式是怎么样的呢?



我们把唐朝和周边国家想想成一个分布式集群,所有国家都需要将唐玄奘这个使者信息都保存一份(分布式存储),当唐玄奘路过某个国家时,需要查询本地存储中是否有唐玄奘,如果有,则认为唐玄奘是合法的使者,可以放行。



但是这种方式就会需要每个国家都同步保存,同步的成本是非常高昂的,而且会有同步延迟的存在


Cookie-Session 模式的优势


状态信息都存储于服务器,只要依靠客户端的同源策略和 HTTPS 的传输层安全,保证 Cookie 中的键值不被窃取而出现被冒认身份的情况,就能完全规避掉上下文信息在传输过程中被泄漏和篡改的风险。Cookie-Session 方案的另一大优点是服务端有主动的状态管理能力,可根据自己的意愿随时修改、清除任意上下文信息,譬如很轻易就能实现强制某用户下线的这样功能。(来自凤凰架构)


Cookie-Session 模式的劣势


在单节点的单体服务中再适合不过,但是如果需要水平扩展要部署集群就很麻烦。


如果让 session 分配到不同的的节点上,不重复地保存着一部分用户的状态,用户的请求固定分配到对应的节点上,如果某个节点崩溃了,则里面的用户状态就会完全丢失。如果让 session 复制到所有节点上,那么同步的成本又会很高。


而为了解决分布式下的认证授权问题,并顺带解决少量状态的问题,就有了 JWT 令牌方案,但是 JWT 令牌和 Cookie-Session 并不是完全对等的解决方案,JWT 只能处理认证授权问题,且不能说 JWT 比 Cookie-Session 更加先进,也不可能全面取代 Cookie-Seesion 机制。


JWT 方案


我们上面说到 Cookie-Session 机制在分布式环境下会遇到一致性和同步成本的问题,而且如果在多方系统中,则更不能将 Session 共享存放在多方系统的服务端中,即使服务端之间能共享数据,Cookie 也没有办法跨域。


转换思路,服务端不保存任何状态信息,由客户端来存储,每次发送请求时携带这个状态信息发给后端服务。原理图如下所示:


图片


但是这种方式无法携带大量信息,而且有泄漏和篡改的安全风险。信息量大小受限没有比较好的解决方案,但是确保信息不被中间人篡改则可以借助 JWT 方案。


JWT(JSON WEB TOKEN)是一种令牌格式,经常与 OAuth2.0 配合应用于分布式、多方系统的应用系统中。


我们先来看下 JWT 的格式长什么样:


图片


以上截图来自 JWT 官网(jwt.io),数据则是悟空随意编的。


左边的字符串就是 JWT 令牌,JWT 令牌是服务端生成的,客户端会拿着这个 JWT 令牌在每次发送请求时放到 HTTP header 中。


而右边是 JWT 经过 Base64 解码后展示的明文内容,而这段明文内容的最下方,又有一个签名内容,可以防止内容篡改,但是不能解决泄漏的问题。


JWT 格式


JWT 令牌是以 JSON 结构存储,用点号分割为三个部分。


图片


第一部分是令牌头(Header),内容如下所示:


{
  "alg": "HS256",
  "typ": "JWT"
}

它描述了令牌的类型(统一为 typ:JWT)以及令牌签名的算法,示例中 HS256 为 HMAC SHA256 算法的缩写,其他各种系统支持的签名算法可以参考jwt.io/网站所列。


令牌的第二部分是负载(Payload),这是令牌真正需要向服务端传递的信息。但是服务端不会直接用这个负载,而是通过加密传过来的 Header 和 Payload 后再比对签名是否一致来判断负载是否被篡改,如果没有被篡改,才能用 Payload 中的内容。因为负载只是做了 base64 编码,并不是加密,所以是不安全的,千万别把敏感信息比如密码放到负载里面。


{
  "sub": "passjava",
  "name": "悟空聊架构",
  "iat": 1516239022
}

令牌的第三部分是签名(Signature),使用在对象头中公开的特定签名算法,通过特定的密钥(Secret,由服务器进行保密,不能公开)对前面两部分内容进行加密计算,以例子里使用的 JWT 默认的 HMAC SHA256 算法为例,将通过以下公式产生签名值:


HMACSHA256(base64UrlEncode(header) + "." + base64UrlEncode(payload) , secret)

签名的意义:确保负载中的信息是可信的、没有被篡改的,也没有在传输过程中丢失任何信息。因为被签名的内容哪怕发生了一个字节的变动,也会导致整个签名发生显著变化。此外,由于签名这件事情只能由认证授权服务器完成(只有它知道 Secret),任何人都无法在篡改后重新计算出合法的签名值,所以服务端才能够完全信任客户端传上来的 JWT 中的负载信息。


JWT 的优势



  • 无状态:不需要服务端保存 JWT 令牌,也就是说不需要服务节点保留任何一点状态信息,就能在后续的请求中完成认证功能。

  • 天然的扩容便利:服务做水平扩容不用考虑 JWT 令牌,而 Cookie-Session 是需要考虑扩容后服务节点如何存储 Session 的。

  • 不依赖 Cookie:JWT 可以存放在浏览器的 LocalStorage,不一定非要存储在 Cookie 中。


JWT 的劣势



  • 令牌难以主动失效:JWT 令牌签发后,理论上和认证的服务器就没有什么关系了,到期之前始终有效。除非服务器加些特殊的逻辑处理来缓存 JWT,并来管理 JWT 的生命周期,但是这种方式又会退化成有状态服务。而这种要求有状态的需求又很常见:譬如用户退出后,需要重新输入用户名和密码才能登录;或者用户只允许在一台设备登录,登录到另外一台设备,要求强行退出。但是这种有状态的模式,降低了 JWT 本身的价值。

  • 更容易遭受重放攻击:Cookie-Session 也有重放攻击的问题,也就是客户端可以拿着这个 cookie 不断发送大量请求,对系统性能造成影响。但是因为 Session 在服务端也有一份,服务端可以控制 session 的生命周期,应对重放攻击更加主动一些。但是 JWT 的重放攻击对于服务端来说就很被动,比如通过客户端的验证码、服务端限流或者缩短令牌有效期,应用起来都会麻烦些。

  • 存在泄漏的风险:客户端存储,很有可能泄漏出去,被其他人重复利用。

  • 信息大小有限:HTTP 协议并没有强制约束 Header 的最大长度,但是服务器、浏览器会做限制。而且如果令牌很大还会消耗传输带宽。


真假美猴王


西游记中还有一个章节,假的美猴王带着通关文牒和其他行李跑到了花果山,还想自行取经,这不就是盗用  JWT 令牌了吗?


如何使用 JWT


Java 有现成的工具类可以使用,而且校验 JWT 的工作可以统一交给网关来做,这个就是下一篇要重点讲解的实战内容了。


总结


唐玄奘就好比客户端,通关文牒就好比 JWT 令牌,经过的每个国家就好比集群中的微服务。


唐玄奘借助 JWT 令牌的认证授权模式,一路通关,最终取得真经,是不是很酷呀~


下一篇:手摸手实战 Spring Cloud Gateway + JWT 认证功能


参考资料:


《凤凰架构》


《OAuth2.0 实战》

作者:悟空聊架构
来源:juejin.cn/post/7250029300820869178

收起阅读 »

MySQL:我的从库竟是我自己!?

本文将通过复制场景下的异常分析,介绍手工搭建MySQL主从复制时需要注意的关键细节。 作者:秦福朗 爱可生 DBA 团队成员,负责项目日常问题处理及公司平台问题排查。热爱互联网,会摄影、懂厨艺,不会厨艺的 DBA 不是好司机,didi~ 本文来源:原创投稿 ...
继续阅读 »

本文将通过复制场景下的异常分析,介绍手工搭建MySQL主从复制时需要注意的关键细节。



作者:秦福朗


爱可生 DBA 团队成员,负责项目日常问题处理及公司平台问题排查。热爱互联网,会摄影、懂厨艺,不会厨艺的 DBA 不是好司机,didi~


本文来源:原创投稿




  • 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。


背景


有人反馈装了一个数据库,来做现有库的从库。做好主从复制关系后,在现有主库上使用 show slave hosts; 管理命令去查询从库的信息时,发现从库的 IP 地址竟是自己的 IP 地址,这是为什么呢?


因生产环境涉及 IP,端口等保密信息,以下以本地环境来还原现象。


本地复现


基本信息


主库从库
IP10.186.65.3310.186.65.34
端口66076607
版本8.0.188.0.18

问题现象


不多说,先上图,以下为在主库执行 show slave hosts; 出现的现象:



可以看到这里的 Host 是主库的 IP 地址。


我们登陆从库查看一下 show slave status\G


mysql> show slave status\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 10.186.65.33
Master_User: universe_op
Master_Port: 6607
Connect_Retry: 60
Master_Log_File: mysql-bin.000002
Read_Master_Log_Pos: 74251749
Relay_Log_File: mysql-relay.000008
Relay_Log_Pos: 495303
Relay_Master_Log_File: mysql-bin.000002
Slave_IO_Running: Yes
Slave_SQL_Running: Yes

我们看到确实从库是在正常运行的,且复制的源就是主库。


为什么执行 show 命令看到的 Host 和实际的情况对不上呢?


查阅资料


首先查阅官方文档,关于 show slave hosts; 语句的解释:




  • 首先说明 8.0.22 之后版本的 show slave hosts 语句被废弃(可执行),改为 show replicas,具体机制还是一样的。

  • 这里说明了各个数据的来源,多数来源于 report-xxxx 相关参数,其中 Host 的数据来自于从库的 report_host 这个参数。


然后,我们测试在从库执行 show variables like "%report%";


mysql> show variables like "%report%";
+-----------------+--------------+
| Variable_name | Value |
+-----------------+--------------+
| report_host | 10.186.65.33 |
| report_password | |
| report_port | 6607 |
| report_user | |
+-----------------+--------------+
4 rows in set (0.01 sec)

可以看到这里显示的就是主库的 IP。


我们再查询 report_host 的参数基本信息:



可以看到该参数非动态配置,在从库注册时上报给主库,所以主库上执行 show slave hosts; 看到的是 IP 是从这里来的,且无法在线修改。


最后也通过查看从库上的 my.cnf 上的 report_port 参数,证实确实是主库的 IP:



结论


经了解,生产上的从库是复制了主库的配置文件来部署的,部署时没有修改 report_host 这个值,导致启动建立复制后将 report_host 这个 IP 传递给主库,然后主库查询 show slave hosts 时就出现了自己的 IP,让主库怀疑自己的从库竟然是自己。


生产上大部分人知道复制主库的配置文件建立新库要修改 server_id 等相关 ID 信息,但比较容易忽略掉 report_ipreport_port 等参数的修改,这个需要引起注意,虽然错误之后看起来对

作者:爱可生开源社区
来源:juejin.cn/post/7254043722946199609
复制运行是没影响的。

收起阅读 »

短链的原理

1. 什么是短链? 在使用网址访问访问网站的时候,可能都会遇到一个很长的链接,多则可能几百个字符,这样的链接看起来非常的长 https://www.google.com/search?q=%E9%95%BF%E9%93%BE%E9%93%BE%E6%8E%A5...
继续阅读 »

1. 什么是短链?


在使用网址访问访问网站的时候,可能都会遇到一个很长的链接,多则可能几百个字符,这样的链接看起来非常的长


https://www.google.com/search?q=%E9%95%BF%E9%93%BE%E9%93%BE%E6%8E%A5&rlz=1C5GCEM_enCN1065&oq=%E9%95%BF%E9%93%BE%E9%93%BE%E6%8E%A5&aqs=chrome..69i57j0i13i512j0i10i13i512l2j0i13i30j0i10i13i30j0i13i30l4.4703j0j15&sourceid=chrome&ie=UTF-8


像以上这种,就是长链链接,看起来非常的臃肿,虽然说链接里面携带的一些参数使链接变长是不可避免的,但是我们可以使用另一种方法,既能使链接携带参数也能使链接为短链接,后面会讲到短链的原理和实现方式。


https://juejin.cn/post/7254039051588599864


像以上这种就是短链,使用短链有以下几种优点。



  1. 相比长链更加简洁。

  2. 便于使用,粘贴复制分享给别人时较为便捷,有些平台对分享内容的长度有所限制(微博只能发140字),这个时候使用短链可以输入更多的内容。

  3. 短链生成的二维码更容易识别。


2. 短链的原理


实现短链的核心原理就是链接映射表和302临时重定向


当我们用户用短链访问服务器时,服务器会将用户携带的短链在服务器中的链接映射表中寻找唯一与之对应的长链接,寻找到后返回重定向,重定向至长链接的网页,这样用户就可以不直接携带长链接,而是携带一个短链接,间接的去访问长链接,这个中间层就是服务器,服务器会在中间做一个链接映射和重定向的操作。


image.png


3. 短链的实现方式


3.1. 自增id法


自增ID的方法也叫做永不重复法,即采用发号器原理来实现,每一个url对应一个数字,然后自增,可以理解为ID,然后将ID进行相应的转换(比如进制转换),由于ID是唯一的,所以转换出来的结果也是唯一的。短网址的长度一般设为 6 位,而每一位是由 [a - z, A - Z, 0 - 9] 总共 62 个字母组成的,所以 6 位的话,总共会有 62^6 ~= 568亿种组合,基本上够用了。


3.2. 算法生成


将长链接做一次哈希算法之后就可以生产一个短链接。


我们都知道哈希算法是一种摘要算法,它的作用是:对任意一组输入数据进行计算,得到一个固定长度的输出摘要。


我们常见的哈希算法有:MD5、SHA-1、SHA-256、SHA-512 算法等。但我们最好还是使用另一种叫做 MurmurHash 的哈希算法。


因为 MD5 和 SHA 哈希算法,它们都是加密的哈希算法,也就是说我们无法从哈希值反向推导出原文,从而保证了原文的保密性。


但对于我们这个场景而言,我们并不关心安全性,我们关注的是运算速度以及哈希冲突。而 MurmurHash 算法是一个非加密哈希算法,所以它的速度回更快。


哈希冲突


学过 HashMap 的同学都知道,哈希冲突是哈希算法不可避免的问题。而解决哈希冲突的方式有两种,分别是:链表法和重哈希法。HashMap 使用了链表法,但我们这里使用的是重哈希法。


所谓的重哈希法,指的是当发生哈希冲突的时候,我们在原有长链后面加上固定的特殊字符,后续拿

作者:1in
来源:juejin.cn/post/7254039051588599864
出长链时再将其去掉.

收起阅读 »

👀SSO单点登录 知多少

为撒我们要使用单点登录 通常情况下我们开发一套系统时,我们都会写一套登录页面。当用户需要访问系统时需要先进行账号登录然后进入系统使用。但是当我们有多个系统时难道需要用户登录多次吗?显然这种方式是不优雅的😶‍🌫️,此时就轮到单点登录登场了。本文将主要以前端的视角...
继续阅读 »

为撒我们要使用单点登录


通常情况下我们开发一套系统时,我们都会写一套登录页面。当用户需要访问系统时需要先进行账号登录然后进入系统使用。但是当我们有多个系统时难道需要用户登录多次吗?显然这种方式是不优雅的😶‍🌫️,此时就轮到单点登录登场了。本文将主要以前端的视角来聊一聊该如何落地单点登录。



单点登录的英文名叫做:Single Sign On(简称SSO)😶‍🌫️



单点登录能干嘛


简单粗暴的说单点登录就是



一处登录 处处登录 🤡



单点登录在前端的系统模型


单点登录实施方案


单点登录目前有两种方案



  • cookie 共享方案(子域名方案)

  • ticket 方案(凭证交换)


这两个方案是有共同点的,我们看看它们有哪些共同的部分



  • 需要一个独立的登录系统

  • 通用重定向的方式完成子系统登录



结合以上可以发现,这两个方案其实在前端的差异性并不大,主要就是需要考虑如何实现登录态共享。



cookie 共享方案


传统的登录方式是用户在登录页完成登录,然后后端通过 set-cookie 将 token 写入到浏览器的 cookie 当中之后的每次请求都会携带token完成身份验证。此时的登录模块和业务模块是同一系统下的不同页面。



单点登录模型下的登录模块和业务模块是独立的不同系统




结合以上流程图我们来分析一波,图中的Asso都是example.com的子域名,当用户访问A-client时会向A-server发送身份验证请求检验当前请求是否携带有效token,如无效则返回特定 code A-client接到返回后根据 code 做出不同响应。



  • A-server返回 token 有效,则继续保持对A-client的访问。

  • A-server返回 token 无效。


    • A-client重定向至SSO-client并携带redirect参数http://sso.example.com?redirect=a.example.com




    • 当用户在SSO-client完成登录后(SSO-server 通过 set-cookie 设置 token 为子域名可访问),再通过redirect参数重定向回A-client




    • 回到A-clientA-client再次向A-server发起身份验证,这次请求会默认携带上domain=example.com的cookie.token,A-server收到token检验有效后,返回用户信息继续保持用户对A-client的有效访问。






至此单点登录的核心逻辑就梳理完成了。



注意:以上是以每套系统都有独立的后端服务(同源)做出的流程,但是有时候我们的后端服可能是同一个,这时候我们在 ABC系统中的请求可能会有跨域/跨站等问题。
解决办法也很多,需要看是跨域,还是跨站问题。
这里贴一个跨域的处理方法 note.youdao.com/s/Tjuuv8Mv 也可以用反向代理去规避跨域问题。




同源:协议+主机名+端口 都相同

同站:二级域名+顶级域名 相同即可



ticket 临时凭证


ticket 方案总体上和 cookie 方案总体差不多,主要区别在于获取 token 的形式不同。

cookie 方案主要是依赖浏览的特性来完成 token 共享。

ticket 则是由各系统携带 ticket 这个临时凭证去换取token



从上图可以看出 ticket 方案不同的地方在于:




  • 用户首次访问A-client时 token 不存在A-client会重定向至SSO-client,当用户在SSO-client登录成功后SSO-server会 set-cookie 将 token 注入到浏览器中(7天免登录),并返回 ticket 参数SSO-client收到登录成功结果后再次带着 ticket 参数重定向回A-client (http://a.example.com?ticket=xxxxxxx)




  • 此时A-client时会多一个 ticket 参数。




  • A-client中的 token 过期时或不存在时,如果 ticket 存在A-server就会带着ticket去请求SSO-server检验ticket是否有效,当SSO-server返回有效的话就表示用户在SSO中是有效登录的。




  • 验证成功后A-server下发 token set-cookie 进A-client的cookie中。




至此完成登录。



以上多是以前端的角度在分析单点登录的实现逻辑,还有很多可以修改的地方。例如后端是同一套服务,token是放在cookie,还是local storage或是JS内存中都是根据业务需求改变的。




以及安全问题,这里就不展开讨论啦



作者:Wanp
来源:juejin.cn/post/7254027262885855291
收起阅读 »

为什么谷歌搜索不支持无限分页

这是一个很有意思却很少有人注意的问题。 当我用Google搜索MySQL这个关键词的时候,Google只提供了13页的搜索结果,我通过修改url的分页参数试图搜索第14页数据,结果出现了以下的错误提示: 百度搜索同样不提供无限分页,对于MySQL关键词,百度...
继续阅读 »

这是一个很有意思却很少有人注意的问题。


当我用Google搜索MySQL这个关键词的时候,Google只提供了13页的搜索结果,我通过修改url的分页参数试图搜索第14页数据,结果出现了以下的错误提示:


Google不能无限分页


百度搜索同样不提供无限分页,对于MySQL关键词,百度搜索提供了76页的搜索结果。


百度不能无限分页


为什么不支持无限分页


强如Google搜索,为什么不支持无限分页?无非有两种可能:



  • 做不到

  • 没必要


「做不到」是不可能的,唯一的理由就是「没必要」。


首先,当第1页的搜索结果没有我们需要的内容的时候,我们通常会立即更换关键词,而不是翻第2页,更不用说翻到10页往后了。这是没必要的第一个理由——用户需求不强烈。


其次,无限分页的功能对于搜索引擎而言是非常消耗性能的。你可能感觉很奇怪,翻到第2页和翻到第1000页不都是搜索嘛,能有什么区别?


实际上,搜索引擎高可用和高伸缩性的设计带来的一个副作用就是无法高效实现无限分页功能,无法高效意味着能实现,但是代价比较大,这是所有搜索引擎都会面临的一个问题,专业上叫做「深度分页」。这也是没必要的第二个理由——实现成本高。


我自然不知道Google的搜索具体是怎么做的,因此接下来我用ES(Elasticsearch)为例来解释一下为什么深度分页对搜索引擎来说是一个头疼的问题。


为什么拿ES举例子


Elasticsearch(下文简称ES)实现的功能和Google以及百度搜索提供的功能是相同的,而且在实现高可用和高伸缩性的方法上也大同小异,深度分页的问题都是由这些大同小异的优化方法导致的。


什么是ES


ES是一个全文搜索引擎。


全文搜索引擎又是个什么鬼?


试想一个场景,你偶然听到了一首旋律特别优美的歌曲,回家之后依然感觉余音绕梁,可是无奈你只记得一句歌词中的几个字:「伞的边缘」。这时候搜索引擎就发挥作用了。


使用搜索引擎你可以获取到带有「伞的边缘」关键词的所有结果,这些结果有一个术语,叫做文档。并且搜索结果是按照文档与关键词的相关性进行排序之后返回的。我们得到了全文搜索引擎的定义:



全文搜索引擎是根据文档内容查找相关文档,并按照相关性顺序返回搜索结果的一种工具



2022-06-08-085125.png


网上冲浪太久,我们会渐渐地把计算机的能力误以为是自己本身具备的能力,比如我们可能误以为我们大脑本身就很擅长这种搜索。恰恰相反,全文检索的功能是我们非常不擅长的。


举个例子,如果我对你说:静夜思。你可能脱口而出:床前明月光,疑是地上霜。举头望明月,低头思故乡。但是如果我让你说出带有「月」的古诗,想必你会费上一番功夫。


包括我们平时看的书也是一样,目录本身就是一种符合我们人脑检索特点的一种搜索结构,让我们可以通过文档ID或者文档标题这种总领性的标识来找到某一篇文档,这种结构叫做正排索引


目录就是正排索引


而全文搜索引擎恰好相反,是通过文档中的内容来找寻文档,诗词大会中的飞花令就是人脑版的全文搜索引擎。


飞花令就是全文搜索


全文搜索引擎依赖的数据结构就是大名鼎鼎的倒排索引(「倒排」这个词就说明这种数据结构和我们正常的思维方式恰好相反),它是单词和文档之间包含关系的一种具体实现形式。


单词文档矩阵


打住!不能继续展开了话题了,赶紧一句话介绍完ES吧!



ES是一款使用倒排索引数据结构、能够根据文档内容查找相关文档,并按照相关性顺序返回搜索结果的全文搜索引擎



高可用的秘密——副本(Replication)


高可用是企业级服务必须考虑的一个指标,高可用必然涉及到集群和分布式,好在ES天然支持集群模式,可以非常简单地搭建一个分布式系统。


ES服务高可用要求其中一个节点如果挂掉了,不能影响正常的搜索服务。这就意味着挂掉的节点上存储的数据,必须在其他节点上留有完整的备份。这就是副本的概念。


副本


如上图所示,Node1作为主节点,Node2Node3作为副本节点保存了和主节点完全相同的数据,这样任何一个节点挂掉都不会影响业务的搜索。满足服务的高可用要求。


但是有一个致命的问题,无法实现系统扩容!即使添加另外的节点,对整个系统的容量扩充也起不到任何帮助。因为每一个节点都完整保存了所有的文档数据。


因此,ES引入了分片(Shard)的概念。


PB级数量的基石——分片(Shard)


ES将每个索引(ES中一系列文档的集合,相当于MySQL中的表)分成若干个分片,分片将尽可能平均地分配到不同的节点上。比如现在一个集群中有3台节点,索引被分成了5个分片,分配方式大致(因为具体如何平均分配取决于ES)如下图所示。


分片


这样一来,集群的横向扩容就非常简单了,现在我们向集群中再添加2个节点,则ES会自动将分片均衡到各个节点之上:


横向扩展


高可用 + 弹性扩容


副本和分片功能通力协作造就了ES如今高可用支持PB级数据量的两大优势。


现在我们以3个节点为例,展示一下分片数量为5,副本数量为1的情况下,ES在不同节点上的分片排布情况:


主分片和副分片的分布


有一点需要注意,上图示例中主分片和对应的副本分片不会出现在同一个节点上,至于为什么,大家可以自己思考一下。


文档的分布式存储


ES是怎么确定某个文档应该存储到哪一个分片上呢?



通过上面的映射算法,ES将文档数据均匀地分散在各个分片中,其中routing默认是文档id。


此外,副本分片的内容依赖主分片进行同步,副本分片存在意义就是负载均衡、顶上随时可能挂掉的主分片位置,成为新的主分片。


现在基础知识讲完了,终于可以进行搜索了。


ES的搜索机制


一图胜千言:


es搜索



  1. 客户端进行关键词搜索时,ES会使用负载均衡策略选择一个节点作为协调节点(Coordinating Node)接受请求,这里假设选择的是Node3节点;

  2. Node3节点会在10个主副分片中随机选择5个分片(所有分片必须能包含所有内容,且不能重复),发送search request;

  3. 被选中的5个分片分别执行查询并进行排序之后返回结果给Node3节点;

  4. Node3节点整合5个分片返回的结果,再次排序之后取到对应分页的结果集返回给客户端。



注:实际上ES的搜索分为Query阶段Fetch阶段两个步骤,在Query阶段各个分片返回文档Id和排序值,Fetch阶段根据文档Id去对应分片获取文档详情,上面的图片和文字说明对此进行了简化,请悉知。



现在考虑客户端获取990~1000的文档时,ES在分片存储的情况下如何给出正确的搜索结果。


获取990~1000的文档时,ES在每个分片下都需要获取1000个文档,然后由Coordinating Node聚合所有分片的结果,然后进行相关性排序,最后选出相关性顺序在990~100010条文档。


深度分页


页数越深,每个节点处理的文档也就越多,占用的内存也就越多,耗时也就越长,这也就是为什么搜索引擎厂商通常不提供深度分页的原因了,他们没必要在客户需求不强烈的功能上浪费性能。


<
作者:蝉沐风
来源:juejin.cn/post/7136009269903622151
hr/>

完。

收起阅读 »

什么是圈复杂度?如何降低圈复杂度?

圈复杂度:理解和降低代码复杂性 在软件开发中,代码的复杂性是一个重要的考量因素。圈复杂度是一种用于衡量代码复杂性的指标,它可以帮助开发者评估代码的可读性、可维护性和可测试性。本文将详细介绍圈复杂度的概念,并提供几种降低圈复杂度的方法。同时,我们还将探讨如何在前...
继续阅读 »

圈复杂度:理解和降低代码复杂性


在软件开发中,代码的复杂性是一个重要的考量因素。圈复杂度是一种用于衡量代码复杂性的指标,它可以帮助开发者评估代码的可读性、可维护性和可测试性。本文将详细介绍圈复杂度的概念,并提供几种降低圈复杂度的方法。同时,我们还将探讨如何在前端开发中使用ESLint和VS Code工具来设置和检测圈复杂度。


什么是圈复杂度?


圈复杂度是由Thomas J. McCabe于1976年提出的一种软件度量指标,用于衡量程序中的控制流程复杂性。它通过计算代码中的判断语句和循环语句的数量来评估代码的复杂性。圈复杂度的值越高,代码的复杂性就越高,理解和维护代码的难度也就越大。


圈复杂度的计算方法是通过构建程序的控制流图,然后统计图中的节点数和边数来得出结果。每个判断语句(如if语句)和循环语句(如for循环)都会增加控制流图中的节点数和边数。圈复杂度的值等于图中边数减去节点数,再加上2。这个值表示了代码中独立路径的数量,即代码执行的可能路径数。


圈复杂度的计算方式可以通过以下步骤进行:




  1. 首先,将程序转换为控制流图(Control Flow Graph,CFG)。控制流图是一种图形表示方法,用于描述程序中的控制流程,包括各种条件和循环语句。




  2. 在控制流图中,每个节点表示程序中的一个基本块(Basic Block),即一组连续的语句序列,没有分支或跳转语句。




  3. 接下来,计算控制流图中的节点数量(N)和边数量(E)。节点数量即为程序中的基本块数量,边数量表示基本块之间的控制流转移关系。




  4. 根据以下公式计算圈复杂度(V):

    V = E - N + 2


    公式中的2表示程序的入口和出口节点,因为每个程序都至少有一个入口和一个出口。




为什么要降低圈复杂度?


高圈复杂度的代码往往难以理解和维护。当代码的复杂性增加时,开发者需要花费更多的时间和精力来理解代码的逻辑和执行路径。这不仅增加了开发和调试的难度,还可能导致代码中隐藏的逻辑错误。


圈复杂度代码状况可测性维护成本
1-10清晰、结构化
10-20复杂
20-30非常复杂
>30不可读不可测非常高

降低圈复杂度有助于提高代码的可读性和可维护性。简化代码结构可以使代码更易于理解,减少错误的引入,并提高代码的可测试性。此外,降低圈复杂度还有助于改善代码的性能,因为简单的代码通常执行更快。


如何降低圈复杂度?


以下是几种降低圈复杂度的常用方法:


1. 减少条件语句的嵌套


条件语句的嵌套是导致圈复杂度增加的常见原因之一。当条件语句嵌套层级过多时,代码的可读性和可维护性都会受到影响。为了降低圈复杂度,可以考虑使用早期返回(early return)的方式来减少条件语句的嵌套。通过在函数内部尽早返回结果,可以避免深层嵌套的条件判断。


function calculateGrade(score) {
if (score >= 90) {
return 'A';
}
if (score >= 80) {
return 'B';
}
if (score >= 70) {
return 'C';
}
return 'D';
}

2. 拆分复杂函数


函数的复杂性是导致圈复杂度升高的另一个常见原因。当一个函数包含过多的逻辑和操作时,它往往难以理解和维护。为了降低圈复杂度,可以将复杂的函数拆分成多个小函数,每个函数只负责一个特定的任务。这样可以提高代码的可读性和可维护性,并且使得每个函数的圈复杂度更低。


function calculateGrade(score) {
if (score >= 90) {
return 'A';
}
return calculateGradeForLowerScores(score);
}

function calculateGradeForLowerScores(score) {
if (score >= 80) {
return 'B';
}
if (score >= 70) {
return 'C';
}
return 'D';
}

3. 使用循环和迭代替代重复的代码块


重复的代码块会增加代码的复杂性和重复性。为了降低圈复杂度,可以使用循环和迭代来替代重复的代码块。通过将重复的逻辑抽象成一个函数,并在循环中调用该函数,可以减少代码的重复性和复杂性。


function printNumbers() {
for (let i = 1; i <= 10; i++) {
console.log(i);
}
}

4. 使用适当的数据结构和算法


选择适当的数据结构和算法可以帮助降低代码的复杂性和提高性能。例如,使用哈希表可以减少查找操作的复杂度,使用排序算法可以提高搜索和比较的效率。通过选择合适的数据结构和算法,可以降低代码的圈复杂度并提高代码的执行效率。


使用ESLint检测圈复杂度


ESLint是一个流行的JavaScript代码检查工具,它可以帮助开发者发现和修复代码中的问题,包括圈复杂度。ESLint提供了许多规则和插件,可以配置和检测圈复杂度。


在ESLint中,可以使用complexity规则来设置圈复杂度的阈值。通过在配置文件中设置适当的阈值,可以在代码检查过程中发现圈复杂度过高的代码段,并及时进行优化和重构。


// .eslintrc.js
module.exports = {
rules: {
complexity: ['error', 15], // 设置圈复杂度阈值为15
},
};

使用VS Code工具检测圈复杂度


VS Code是一款流行的代码编辑器,它提供了许多插件和工具,可以帮助开发者提高代码质量和效率。在VS Code中,可以使用插件如ESLint、CodeMetrics等来检测圈复杂度。


安装ESLint插件后,可以在VS Code的设置中配置圈复杂度的阈值,并在编辑器中实时检测代码的圈复杂度。通过设置合适的阈值,可以在开发过程中及时发现和解决代码复杂性问题。


结论


圈复杂度是衡量代码复杂性的重要指标,通过降低圈复杂度可以提高代码的可读性、可维护性和可测试性。在前端开发中,使用ESLint和VS Code工具可以帮助我们设置和检测圈复杂度,并及时发现和解决代码中的复杂性问题。通过合理的代码设计和优化,我们可以编写出更简洁、高效和易于维护的代码。


希望本文对你理解圈复杂度以及降低

作者:jungang
来源:juejin.cn/post/7253291161397559353
代码复杂性有所帮助!

收起阅读 »

前一阵闹得沸沸扬扬的IP归属地,到底是怎么实现的?

大家好,我是王老师,一直在准备写这篇稿子,但是事情太多一直耽误了,导致一直拖一直拖,结果就从最近变成了前一阵子。这下好了,不会有人说我蹭热度了。 大家都知道,前一阵子抖音和微博开始陆续上了IP归属地的功能,引起了众多热议。有大批在国外的老铁们开始"原形毕露...
继续阅读 »

大家好,我是王老师,一直在准备写这篇稿子,但是事情太多一直耽误了,导致一直拖一直拖,结果就从最近变成了前一阵子。这下好了,不会有人说我蹭热度了。


image.png


image.png


大家都知道,前一阵子抖音和微博开始陆续上了IP归属地的功能,引起了众多热议。有大批在国外的老铁们开始"原形毕露",被定位到国内来,那么IP归属到底是怎么实现的呢?那么网红们的归属地到底对不对呢?这篇文章帮大家揭晓。


一.第一步:如何拿到用户的真实IP


大家都知道,我们一般想访问公网,一般必须具备上网环境,那么我们开通宽带之后,运营商会给我们分配一个IP地址。一般IP地址我们都是自动分配的。所以我们不知道本机地址是什么?想知道自己的ip公网地址,可以通过百度搜索IP查看自己的ip位置
image.png


那么问题来了。百度是怎么知道我的公网IP的?


一般情况,用户访问我们的服务网络拓扑如下:


image.png


用户通过域名或者IP访问门户,然后请求到后端服务。这样的话后端服务就可以通过request.getRemoteAddr();方法获取用户的ip。


SpringBoot获取IP如下:


@RestController
public class IpController {

  @RequestMapping("/getIp")
  public String hello(HttpServletRequest request) {
      String ip = request.getRemoteAddr();
      System.out.println(ip);
      return ip;
  }
}

将服务部署到服务端,然后请求该接口,即可获取IP信息,如下图:


image.png


但是为什么我们获取的IP和百度搜出来的不一样呢?


1.1内网IP和外网IP


打开电脑CMD,输出ipconfig命令,查看本机的IP地址,发现我们本机地址和程序获取的地址是一样的。


image.png


其实,网络也是分内网IP和公网IP的。内网也成局域网。对于像公司,学校这种一般内部建立自己的局域网,对内部的信息进行传输时,都是通过内网相互通讯,建立局域网内网通讯节省了公网IP资源,并且通信效率也有很大的提升。当然非局域网内的设备则无法向内网的设备发送信息。


但是机器想要访问互联网的资源时,则需要机器拥有外网带宽,也就是我们所说的分配公网IP,负责也是无法访问互联网资源的。


image.png


因此,我们把服务部署在同一局域网内,客户端使用内网进行通信,因此获取的就是内网IP地址。但访问百度是需要使用公网访问,因此百度搜出来的IP就是公网IP地址。


1.2.为什么有时候获取到的客户端IP有问题?


当我们兴致勃勃的把IP获取的功能搞上去之后,发现获取的IP都是同一个?这是为什么呢?不可能只是一个用户在访问呀?查询IP信息之后发现,原来是我们部署的一台负载均衡的IP地址。


image.png


那么后端服务获取的地址都是负载均衡如nginx的地址。那么怎么透过负载均衡获取真实的地址呢?


透明的代理服务器在将客户端的访问请求转发到下一环节的服务器时,会在HTTP的请求头中添加一条X-Forwarded-For记录,用于记录客户端的IP,格式为X-Forwarded-For:客户端IP。如果客户端和服务器之间有多个代理服务器,则X-Forwarded-For记录使用以下格式记录客户端IP和依次经过的代理服务器IP:X-Forwarded-For:客户端IP, 代理服务器1的IP, 代理服务器2的IP, 代理服务器3的IP, ……


因此,常见的Web应用服务器可以通过解析X-Forwarded-For记录获取客户端真实IP。


public static String getIp(HttpServletRequest request) {
  String ip = request.getHeader("x-forwarded-for");

  if (ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) {
      ip = request.getRemoteAddr();
  } else if (ip.length() > 15) {
      //多次反向代理后会有多个ip值,第一个ip才是真实ip
      String[] ips = ip.split(",");
      for (int index = 0; index < ips.length; index++) {
          String strIp = ips[index];
          ip = strIp;
          break;
      }
  }
  return ip;
}

第二步:如何解析IP


IP来了,我们怎么解析呢:


IP的解析一般都要借助第三方软件使用了,第三方一般也分为离线库和在线库



  • 离线库支持的有如:IPIP,使用离线库的好处是解析效率高,性能好,问题就是IP库要经常更新。如果大家需要我私信我可以提供给大家比较新版本的ip库。

  • 在线库则各大云厂商接口能力都有支持。在线版本的好处是更新即时,问题就是接口查询性能和使用TPS有要求。


以下演示借助IP库离线IP解析方式:


借助IP库就可以帮我们实现ip地址的解析。


public static void main(String[] args) {
  IpAddrInfo IpAddrInfo = IPAddr.getInstance().putLocInfo("114.103.71.226");
  System.out.println(JSONObject.toJSONString(IpAddrInfo));
}

public IpAddrInfo putLocInfo(String ip) {
  IpAddrInfo info = new IpAddrInfo();
  if (StringUtils.isNotBlank(ip)) {
      try {
          DistrictInfo addrInfo = db.findInfo(ip, "CN");
          info.setCity(addrInfo.getCityName());
          info.setCountry(addrInfo.getCountryName());
          info.setCountryCode(addrInfo.getChinaAdminCode());
          info.setIsp(addrInfo.getIsp());
          info.setLat(addrInfo.getLatitude());
          info.setLon(addrInfo.getLongitude());
          info.setProvince(addrInfo.getRegionName());
          info.setTimeZone(addrInfo.getTimeZone());
          System.out.println(addrInfo.toString());
      } catch (IPFormatException e) {
          e.printStackTrace();
      } catch (InvalidDatabaseException e) {
          e.printStackTrace();
      }
  }
  return info;
}

image.png


其实IP的定位解析其实就是一个巨大的位置库,同时IP数量也是有限制的,因此同一个Ip也可能会分配到不同的区域,因此影响IP解析位置准确率的有几个方面
1、位置库不精准,导致解析偏差大或者地区字段确实
2、离线库更新不及时
并且海外的一般有专门的离线库去支持,使用同一套离线库并不一定支持海外IP的解析,所以本次受影响最大的海外网红门被解析到中国各个地区,被大家认为造假,当然也包括真的有造假。不过上线了这个功能也是有好处的,至少网络不是法外之地,大家也要有序的健康的冲浪,拒绝网络暴力。


好了,今天就到这里,我是王老狮,一个有想法有内涵的工程狮,关注我,学习更多技术知识。


收起阅读 »

三分钟,趁同事上厕所的时间,我覆盖了公司的正式环境数据

大家好啊,又跟大家见面了,最近有个需求就是批量修改公司的数据报表,正式环境!! 而且要执行update!! update it_xtgnyhcebg I set taskStatus = XXX 而且是没有加where条件的,相当于全表更新,这可马虎不得,我...
继续阅读 »

大家好啊,又跟大家见面了,最近有个需求就是批量修改公司的数据报表,正式环境!!
而且要执行update!!


update it_xtgnyhcebg I set taskStatus = XXX

而且是没有加where条件的,相当于全表更新,这可马虎不得,我们在任何操作正式数据库之前一定一定要对数据库备份!!不要问我怎么知道的,因为我就因为有一次把测试环境的数据覆盖到正式环境去了。。。


在这里插入图片描述


别到时候就后悔莫及,那是没有用的!


在这里插入图片描述
在这里插入图片描述


由于这个需求是需要在跨库操作的,所以我们在查询数据的时候需要带上库的名称,例如这样


SELECT
*
FROM
BPM00001.ACT_HI_PROCINST P
LEFT JOIN BPM00001.ACT_HI_VARINST V ON V.PROC_INST_ID_ = P.ID_
AND V.NAME_ = '__RESULE'


这样如果我们在任何一个库里面,只要在一个mysql服务里面都可以访问到这个数据
查出这个表之后
在这里插入图片描述
我们需要根据这里的内容显示出不同的东西
就例如说是“APPROVAL”我就显示“已通过”
这就类似与java中的Switch,其实sql也能实现这样的效果
如下:
在这里插入图片描述
这就是sql的case语句的使用
有了这些数据之后我们就可以更新数据表了,回到我们之前讨论过的,这是及其危险的操作
我们先把要set的值给拿出来
在这里插入图片描述


在这里插入图片描述
但是我们怎么知道这个里面的主键呢?
你如果直接这么加,肯定是不行的
在这里插入图片描述
所以我们需要在sql后面加入这样的一条语句
在这里插入图片描述
注意,这个语句一定要写在set语句的里面,这样sql就能依据里面判断的条件进行一一赋值
最后,将这个sql语句执行到生产库中


拓展:


作为查询语句的key绝对不能重复,否则会失败(找bug找了半天的人的善意提醒)
例如上面的语句中P.BUSINESS_KEY_必须要保证是唯一的!!


在这里插入图片描述
成功执行!!!
怎么样,这些sql

作者:掉头发的王富贵
来源:juejin.cn/post/7244563144671723576
的小妙招你学会了吗?

收起阅读 »

十年码农内功:经历篇

分享工作中重要的经历,可以当小说来看 一、伪内存泄漏排查 1.1 背景 我们原来有一个刚用 C++ 写的业务服务,迟迟不敢上线,原因是内存泄漏问题一直解决不了。现象是,服务上线后,内存一直慢慢每隔几秒上涨4/8KB,直到服务下线。 我刚入职不久,领导让我来查...
继续阅读 »

分享工作中重要的经历,可以当小说来看



一、伪内存泄漏排查


1.1 背景


我们原来有一个刚用 C++ 写的业务服务,迟迟不敢上线,原因是内存泄漏问题一直解决不了。现象是,服务上线后,内存一直慢慢每隔几秒上涨4/8KB,直到服务下线。


我刚入职不久,领导让我来查这个问题,非常具有挑战性,也是领导对我的考察!


1.2 分析


心路历程1:工具分析


使用 Valgrind 跑 N 遍服务,结果中都没有发现内存泄漏,但是有很多没有被释放的内存和很多疑似内存泄漏。实在没有发现线索。


心路历程2:逐个模块排查


工具分析失败,那就挨个模块翻看代码,并且逐个模块写demo验证该模块是否有泄漏(挂 Valgrind),很遗憾,最后还是没有找到内存泄漏。


心路历程3:不抛弃不放弃


这个时候两周快过去了,领导说:“找不到内存泄漏那就先去干别的任务吧”,感觉到一丝凉意,我说:“再给我点时间,快找到了”。这样顶着巨大压力加班加点的跑Valgrind,拿多次数据结果进行对比,第一份跑 10 分钟,第二份跑 20 分钟,看看有哪些差异或异常,寻找蛛丝马迹。遗憾的是还是没有发现内存泄漏在哪。


功夫不负有心人,看了 N 份结果后,对一个队列产生了疑问,它为啥这么大,队列长度 1000 万,直觉告诉我,它不正常。


去代码中找这个队列,确实在初始化的时候设置了 1000 万长度,这个长度太大了。


1.3 定位


进队列需要把虚拟地址映射到物理地址,物理内存就会增加,但是出队列物理内存不会立刻回收,而是保留给程序一段时间(当系统内存紧张时会主动回收),目的是让程序再次使用之前的虚拟地址更快,不需要再次申请物理内存映射了,直接使用刚才要释放的物理内存即可。


当服务启动时,程序在这 1000 万队列上一直不停的进/出队列,有点像貔貅,光吃不拉,物理内存自然会一直涨,直到貔貅跑到了队尾,物理内存才会达到顶峰,开始处在一个平衡点。


图1 中,红色代表程序占用的物理内存,绿色为虚拟内存。



图1


然而每次上线还没等 到达平衡点前就下线了,担心服务内存一直涨,担心出事故就停服务了。解决办法就是把队列长度调小,最后调到了 2 万,再上线,貔貅很快跑到了队尾,达到了平衡点,内存就不再增涨。


其实,本来就没有内存泄漏,这就是伪内存泄漏。


二、周期性事故处理


2.1 背景


我们有一个业务,2019 年到 2020 年间发生四次(1025、0322、0511 和 0629)大流量事故,事故时网络流量理论峰值 3000 Gbps,导致网络运营商封禁入口 IP,造成几百万元经济损失,均没有找到具体原因,一开始怀疑是服务器受到网络攻击。


后来随着事故发生次数增加,发现事故发生时间具有规律性,越发感觉不像是被攻击,而是业务服务本身的流量瞬间增多导致。服务指标都是事故造成的结果,很难倒推出事故原因。


2.2 猜想(大胆假设)


2.2.1 发现事故大概每50天发生一次


清晰记得 2020 年 7 月 15 日那天巡检服务时,我把 snmp.xxx.InErrors 指标拉到一年的跨度,如图2 发现多个尖刺的间距似乎相等,然后我就看了下各个尖刺时间节点,记录下来,并且具体计算出各个尖刺间的间隔记录在下面表格中。着实吓了一跳,大概是 50 天一个周期。并且预测了 8月18日 可能还有一次事故。



图2 服务指标


事故时间相隔天数
2019.09.05-
2019.10.2550天
2019.12.1450天
2020.02.0149天
2020.03.2250天
2020.05.1150天
2020.06.2949天
2020.08.18预计

2.2.2 联想50天与uint溢出有关


7 月 15 日下班的路上,我在想 3600(一个小时的秒数),86400(一天的秒数),50 天,5 x 8 等于 40,感觉好像和 42 亿有关系,那就是 uint(2^32),就往上面靠,怎么才能等于 42 亿,86400 x 50 x 1000 是 40 多亿,这不巧了嘛!拿出手机算了三个数:


2^32                  = 4294967296 
3600 * 24 * 49 * 1000 = 4233600000
3600 * 24 * 50 * 1000 = 4320000000

好巧,2^32 在后面的两个结果之间,4294967296 就是 49 天 16 小时多些,验证了大概每 50 天发生一次事故的猜想。



图3 联想过程


2.3 定位(小心求证)


2.3.1 翻看代码中与时间相关的函数


果然找到一个函数有问题,下面的代码,在 64 位系统上没有问题,但是在 32 位系统上会发生溢出截断,导致返回的时间是跳变的,不连续。图4 是该函数随时间输出的折线图,理想情况下是一条向上的蓝色直线,但是在 32 位系统上,结果却是跳变的红线。


uint64_t now_ms() {
struct timeval t;
gettimeofday(&t, NULL);
return t.tv_sec * 1000 + t.tv_usec / 1000;
}


图4 函数输出


这里解释一下,问题出在了 t.tv_sec * 1000,在 32 位系统上会发生溢出,高于 32 位的部分被截断,数据丢失。不幸的是我们的客户端有一部分是 32 位系统的。


2.3.2 找到出问题的逻辑


继续追踪使用上面函数的逻辑,发现一处问题,客户端和服务端的长链接需要发Ping保活,下一次发Ping时间等于上一次发Ping时间加上 30 秒,代码如下:


next_ping = now_ms() + 30000;

客户端主循环会不断判断当前时间是否大于 next_ping,当大于时发 Ping 保活,代码如下:


if (now_ms() > next_ping) {
send_ping();
next_ping = now_ms() + 30000;
}

那怎么就出现大流量打到服务器呢?举个例子,如图3,假如当前时间是 6月29日 20:14:00(20:14:26 时 now_ms 函数返回 0),now_ms 函数的返回值超级大。


那么 next_ping 等于 now_ms() 加上 30000(30s),结果会发生 uint64 溢出,反而变的很小,这就导致在接下来的 26 秒内,now_ms函数返回值一直大于 next_ping,就会不停发 Ping 包,产生了大量流量到服务端。


2.3.3 客户端实际验证


找到一个有问题的客户端设备,把它本地时间拨回 6月29日 20:13:00,让其自然跨过 20:14:26,发现客户端本地 log 中有大量发送 Ping 包日志,8 秒内发送 2 万多个包。证实事故原因就是这个函数造成的。解决办法是对 now_ms 函数做如下修改:


uint64_t now_ms() {
struct timespec t;
clock_gettime(CLOCK_MONOTONIC, &t);
return uint64_t(t.tv_sec) * 1000 + t.tv_nsec / 1000 / 1000;
}

2.3.4 精准预测后面事故时间点


因为客户端发版周期比较长,需要做好下次事故预案,及时处理事故,所以预测了后面多次事故。


时间戳(ms)16进制北京时间备注
15719580303360x16E000000002019/10/25 07:00:30历史事故时间
15762529976320x16F000000002019/12/14 00:03:17不确定
15805479649280x170000000002020/02/01 17:06:04不确定
15848429322240x171000000002020/03/22 10:08:52历史事故时间
15891378995200x172000000002020/05/11 03:11:39历史事故时间
15934328668160x173000000002020/06/29 20:14:26历史事故时间
15977278341120x174000000002020/08/18 13:17:14精准预测事故发生
16020228014080x175000000002020/10/07 06:20:01精准预测事故发生
16063177687040x176000000002020/11/25 23:22:48精准预测事故发生

2.4 总结


该事故的难点在于大部分服务端的指标都是事故导致的结果,并且大流量还没有到业务服务,就被网络运营商封禁了 IP;并且事故周期跨度大,50 天发生一次,发现规律比较困难。


发现规律是第一步,重点是能把 50 天和 uint32 的最大值联系起来,这一步是解决该问题的灵魂。



  • 大胆假设:客户端和服务端的代码中与时间相关的函数有问题;

  • 小心求证:找到有问题的函数,别写代码验证,最后通过复现定位问题;


经过不屑努力从没有头绪到逐渐缩小排查范围,最后定位和解决问题。

作者:科英
来源:juejin.cn/post/7252159509837119546

收起阅读 »

关于Java已死,看看国外开发者怎么说的

博主在浏览 medium 社区时,发现了一篇点赞量 1.5k 的文章,名称叫《Java is Dead — 5 Misconceptions of developers that still think Java is relevant today!》直译过来...
继续阅读 »


博主在浏览 medium 社区时,发现了一篇点赞量 1.5k 的文章,名称叫《Java is Dead — 5 Misconceptions of developers that still think Java is relevant today!》直译过来就是《Java 已死 — 开发人员对 Java 在现代编程语言中的5个误解》。这篇文章可以说是标题党得典范,热度全靠标题蹭 😂。当然本文重点在于文章评论区。作者因为标题党惨着评论区大佬们怒怼,不敢回复。


原文地址:medium.com/@sidh.thoma… Thomas



推荐博主开源的 H5 商城项目waynboot-mall,这是一套全部开源的微商城项目,包含三个项目:运营后台、H5 商城前台和服务端接口。实现了商城所需的首页展示、商品分类、商品详情、商品 sku、分词搜索、购物车、结算下单、支付宝/微信支付、收单评论以及完善的后台管理等一系列功能。 技术上基于最新得 Springboot3.0、jdk17,整合了 MySql、Redis、RabbitMQ、ElasticSearch 等常用中间件。分模块设计、简洁易维护,欢迎大家点个 star、关注博主。


github 地址:github.com/wayn111/way…



下面是文章内容:



人们仍然认为 Java 与当今时代相关,这是一种常见的误解。事实上 Java 是一种正在消亡的编程语言。 Java 一直是世界上使用最广泛、最流行的编程语言之一,但它很快就会面临消亡的危险。如今 Java 拥有庞大而活跃的开发者社区,并且仍然用于广泛的应用程序,包括 Web 开发、移动应用程序开发和企业级软件开发,但 Java 能在未来 10 年生存吗?让我们看看开发者对 Java 有哪些误解:



误解 1:Java 拥有庞大且活跃的开发者社区。世界各地有数百万 Java 开发人员,该语言在开发人员共享知识和资源的在线论坛和社区中占有重要地位。



虽然情况仍然如此,但开发人员转向其他平台和编程语言的速度很能说明问题,我个人也看到开发人员惊慌失措地跳槽。主要问题是 Java 作为一种编程语言还没有现代化,因此它仍然很冗长,通过一个步履蹒跚但极其笨重的类型系统结合了静态和动态类型之间最糟糕的两个世界,并且要求在具有以下功能的 VM 上运行宏观启动时间(对于长时间运行的服务器来说不是问题,但对于命令行应用程序来说是痛苦的)。虽然它现在表现得相当不错,但它仍然无法与 C 或 C++ 竞争,并且只要有一点爱,C#、Go、Rust 和 Python 就可以或将会在该领域超越它。对于现实世界的生产服务器,它往往需要大量的 JVM 调整,而且很难做到正确。



误解 2:Java 的应用范围很广。 Java 不仅仅是一种 Web 开发语言,还用于开发移动应用程序、游戏和企业级软件。这种多功能性使其成为许多不同类型项目的有价值的语言。



Java 不再是移动应用程序开发(尤其是 Android)首选的编程语言。 Kotlin 现在统治着 Android,大多数 Android 开发者很久以前就已经跳槽了。就连谷歌也因为几年前与甲骨文的惨败而放弃了 Java 作为 Android 的事实上的语言。 Java 作为一种 Web 开发语言也早已失去了它的受欢迎程度。就企业开发而言,Java 在大型企业中仍然适用,因为它可靠且稳定。尽管许多初创公司并未将 Java 作为企业软件的首选,但他们正在使用其他替代方案。



误解 3:Java 是基础语言。许多较新的编程语言都是基于 Java 的原理和概念构建的,并且旨在以某种方式与其兼容。这意味着即使 Java 的受欢迎程度下降,它的原理和概念仍然具有相关性。



虽然 Java 确实是许多人开始编程之旅的基础语言,但事实是 Java 仍然非常陈旧且不灵活。最重要的是,与其他现代编程语言相比,它仍然很冗长,这意味着它需要大量代码来完成某些任务。这会使编写简洁、优雅的代码变得更加困难,并且可能需要更多的精力来维护大型代码库。此外,Java 是静态类型的这一事实意味着它可能比动态类型语言更严格且灵活性较差,这可能会让一些开发人员感到沮丧。



误解 4:Java 得到各大公司的大力支持。 Oracle 是维护和支持 Java 的公司,对该语言有着坚定的承诺,并持续投资于其开发和改进。此外,包括 Google 和 Amazon 在内的许多大公司都在其产品和服务中使用 Java。



Oracle 的 Java 市场份额正在快速被竞争对手夺走。见下图:



尽管下图显示甲骨文仍然拥有最大的市场份额,但其份额已减少了一半以上。 2020 年,甲骨文占据了“大约 75% 的 Java 市场”,而现在的份额还不到 35%。


根据 New Relic 的数据,排名第二的是亚马逊,自 2021 年 11 月发布 Java 17 以来,其份额急剧上升,当时其份额几乎与 Eclipse Adoptium 相同。



误解 5:Java 在学校和大学中广泛教授。 Java 是一种流行的编程概念教学语言,经常用于学校和大学的计算机科学课程。这意味着有源源不断的新开发人员正在学习 Java 并熟悉其功能。



这种情况正在发生很大的变化。渴望成为软件开发人员的年轻大学生正在迅速转向其他编程语言。由于对这些其他编程语言的普遍需求,这越来越多地促使学院和大学寻找替代方案。


我知道这是一个有争议的话题。虽然我也认为 Java 是一种彻底改变了软件编写方式的语言,并为其他编程语言树立了可以效仿的基准。但不幸的是,该语言的所有权掌握在公司手中,在没有留下太多财务收益的情况下,该公司没有动力继续改进它。



OK,文章内容就这么多,下面是本文重点!



评论区



喜闻乐见评论区来了 😎,看看国外开发者怎么反驳这篇文章得,本文选取评论点赞量较高得5条评论放在下文。



评论一


来自Migliorabile



作者不知道什么是编程语言、它为什么存在以及它在哪里使用。

仅因为许多程序员都在应用程序中最简单的部分工作,就认为 Java 与 Python 等效,这是完全错误的。

假设自因为使用自行车的人比驾驶采矿机的人多,我就认为自行车比卡特彼勒采矿机更好,这是不对得。



评论二


来自Khalid Hamid



哈哈哈,我想说他甚至可能不是一个程序员,可能会做一些 JavaScript 的事情,即使如此,将 JavaScript 和 TypeScript 归类为两种语言也是没有意义的。

在安卓开发中,他不明白 Kotlin 是什么,虽然它确实有效。



评论三


来自Dan Decker



每次看到这样的文章我都会直接去看评论。(喜闻乐见评论区🤔)



评论四


来自Max Dancona



对于成熟,我有一些话要说。我过去三份工作中有两份是在一些公司开始使用一种性感的新语言(即 ruby 和 python),然后付钱给像我这样的人用 Java 重写他们的应用程序。



评论五


来自Marco Kneubühler



作者似乎不明白编程语言的风格是出于不同的目的而存在的,语言之间进行比较没有意义, 比如拿 sql 或 html/css 与 java 来比?语言是一个丰富的生态系统,我们需要为特定目的选择正确的语言。因此需要多语言开发人员而不是教条主义。



总结


博主这里说下自己得看法,虽然作者对于自己得观点进行了5个误解的阐述,但是博主是并不认同得。



  • 文章的标题就是一个误导性的问题,暗示了 Java 已经不行。事实上 Java 仍然是一门非常流行和强大的编程语言,它在很多领域都有广泛的应用和优势,如移动应用、Web 应用、可穿戴设备、大数据、云计算等。Java 也有不断地更新和改进,引入了很多新的特性和功能,以适应不断变化的技术需求。

  • Java 也有庞大的社区和丰富的资源,为开发者提供了很多支持和帮助。根据 GitHub Octoverse Report 2022,Java 是第三大最受欢迎的语言,仅次于 JavaScript、Python。根据 JetBrains State of Developer Ecosystem 2022,Java 是过去12个月内使用占有率排名第五的语言,占据了 48% 的份额。根据 StackOverflow Developer Survey 2022,最常用的编程语言排行榜中 Java 是排名第六的语言,占据了 33.27% 的份额。这些数据都表明 Java 并没有死亡或不在流行,而是仍然保持着其重要的地位。


GitHub Octoverse Report 2022


JetBrains State of Developer Ecosystem 2022


StackOverflow Developer Survey 2022



  • 文中说 Java 是一门过时和冗长的语言,它没有跟上时代的变化,而其他语言如 Python、JavaScript 和 Kotlin 等都更加简洁和现代化。这个观点忽略了 Java 的设计哲学和目标。Java 是一门成熟、稳定、跨平台、高性能、易维护、易扩展的编程语言,它注重可读性、健壮性和兼容性。Java 的语法可能相对复杂,但它也提供了很多强大的特性和功能,如泛型、注解、枚举、lambda 表达式、流 API、模块化系统等。

  • Java 也没有停止创新和改进,它在近几年引入了很多新的特性和功能,如 Record 类、密封类、模式匹配、文本块、虚拟线程、外部函数和内存API等。其他语言可能在某些方面比 Java 更加简洁或现代化,但它们也有自己的局限和缺点,比如运行速度慢、类型系统弱、错误处理困难等。不同的语言适合不同的场景和需求,并不是说一种语言就可以完全取代另一种语言。


总之,我觉得 Java 在未来会被替代的可能性很小,但也不能掉以轻心,在后端开发领域,Go 已经在逐步蚕食 Java 得份额,今年非常火得 ai 模型领域相关,大部分代码也是基于 Python 编写。Java 需要在保持优势领域地位后持续地创新和改进。



关注公众号【waynblog】每周分享技术干货、开源项目、实战经验、高效开发工具等,您的关注将是我的更新动力!


作者:waynaqua
来源:juejin.cn/post/7252127579195736119

收起阅读 »

十年码农内功:分布式

分布式协议一口气学完 一、Raft 协议 1.1 基础概念 Raft 算法是通过一切以领导者为准的方式,实现一系列数据的共识和各节点日志的一致。Raft是强领导模型,集群中只能有一个领导者。 成员身份:领导者(Leader)、跟随者(Follower)和候选...
继续阅读 »

分布式协议一口气学完



一、Raft 协议


1.1 基础概念


Raft 算法是通过一切以领导者为准的方式,实现一系列数据的共识和各节点日志的一致。Raft是强领导模型,集群中只能有一个领导者。


成员身份:领导者(Leader)、跟随者(Follower)和候选者(Candidate)。



图1 成员身份



  • 领导者:集群中霸道总裁,一切以我为准,处理写请求、管理日志复制和不断地发送心跳信息。

  • 跟随者:普通成员,处理领导者发来的消息,发现领导者心跳超时,推荐自己成为候选人。

  • 候选人:先给自己投一票,然后请求其他集群节点投票给自己,得票多者成为新的领导者。

  • 任期编号:每任领导者都有任期编号。当领导者心跳超时,跟随者会变成候选人,任期编号 +1,然后发起投票。任期编号小的服从编号大的。

  • 心跳超时:每个跟随者节点都设置了随机心跳超时时间,目的是避免跟随者们同时成为候选人,同时发起投票。

  • 选举超时:每轮选举的结束时间,随机选举超时时间可以避免多个候选人同时结束选举未果,然后同时发起下一轮选举


1.2 领导选举


1.2.1 选举规则



  • 领导者周期性地向跟随者发送心跳消息,告诉跟随者我是领导者,阻止跟随者发变成候选人发起新选举;

  • 如果跟随者的随机心跳超时了,那么认为没有领导者了,推荐自己为候选人,发起新的选举;

  • 在一轮选举中,赢得一半以上选票的候选人,即成为新的领导者;

  • 在一轮选举中,每个节点对每个任期编号的选举只能投出一票,先来先服务原则;

  • 日志完整性高(也就是最后一条日志项对应的任期编号值更大,索引号更大)的跟随者A拒绝给完整性低的候选人B投票,即使B的任期编号大;


1.2.2 选举动画



图2 初始选举



图3 领导者宕机/断网



图4 第一轮选举未果,发起第二轮选举


1.3 日志复制


日志项(Log Entry):是一种数据格式,它主要包含索引值(Log index)、任期编号(Term)和 指令(Command)。



  • 索引值:它是用来标识日志项的,是一个连续的、单调递增的整数值。

  • 任期编号:创建这条日志项的领导者的任期编号。

  • 指令:一条由客户端请求指定的、服务需要执行的指令。



图5 日志信息


1.3.1 日志复制动画



图6 简单日志复制



图7 复杂日志复制


1.3.2 日志恢复


每次选举出来的Leader一定包含在多数节点上最新的已经提交的日志,新的Leader将会覆盖其他节点上不一致的数据。


虽然新Leader一定包括上一个Term的Leader已提交(Committed)日志,但是可能也包含上一个Term的Leader的未提交(Uncommitted)日志。


这部分未提交日志需要转变为Committed,相对比较麻烦,需要考虑Leader多次切换且未完成日志恢复,需要保证最终提案是一致的、确定的,不然就会产生所谓的幽灵复现问题。


为了将上一个Term未提交的日志转为已提交,Raft算法要求Leader当选后立即追加一条Noop的特殊内部日志,并立即同步到其它节点,实现前面未提交日志全部隐式提交。


这样保证客户端不会读到未提交数据,因为只有Noop被大多数节点同意并提交了之后(这样可以连带往期日志一起同步),服务才会对外正常工作;


Noop日志本身是一个分界线,Noop之前的日志被提交,之后的日志将会被丢弃。Noop日志仅包含任期编号和日志索引值,没有指令。


日志“幽灵复现”的场景



图8


第一步,A是领导者,在本地记录4和5日志,并没有提交,然后挂了。



图9


第二步,由于B的日志索引值比C的大,B成为了领导者,仅把日志3同步给了C,然后挂了。



图10


第三步,A恢复了,并且成为了领导者,然后把未提交的日志4和5同步给了B和C(C在A成为了领导者之后、同步日志之前恢复了),然后ABC都提交了日志4和5,就这样原本客户端写失败的日志4和5复活了,进而客户端会读到其认为未提交的日志(实际上集群日志已提交)。


Noop解决日志复现


第一步,同上面一样。


第二步,由于B的日志索引值比C的大,B成为了领导者,这次不仅把日志3同步给了C,还记录了一个Noop日志,并且同步给了C。



图11


第三步,当A恢复了,想成为领导者,发现自己的日志任期编号和日志索引值都不是最大的,即使B挂了也还有C,A也就成为不了领导者,乖乖使用B的日志覆盖自己的日志。


1.4 成员变更


集群成员变更最大的风险是可能同时出现 2 个领导者。比如在成员变更时,节点 A、B 和 C 之间发生了分区错误,节点 A、B 组成旧集群(ABC)中的“大多数”。


而节点 C 和新节点 D、E 组成了新集群(ABCDE)的“大多数”,它们可能会选举出新的领导者(比如节点 C)。结果出现了同时存在 2 个领导者的情况。违反了Raft协议中领导者唯一性原则。



图12 集群(ABC)同时增加节点D和E


最初解决办法是联合共识(Joint Consensus),但实现起来难,后来 Raft 的作者就提出了一种改进后的方法,单节点变更(single-server changes)。


在正常情况下,旧集群的“大多数”和新集群的“大多数”都会有一个重叠的节点。



图13 集群(ABCD)增加新节点E



图14 集群(ABCDE)删除节点A



图15 集群(ABC)增加新节点D



图16 集群(ABCD)删除节点A


需要注意的是,在分区错误、节点故障等情况下,如果并发执行单节点变更,那么就可能出现一次单节点变更尚未完成,新的单节点变更又在执行,导致集群出现 2 个领导者的情况。


二、Gossip 协议


Gossip协议,顾名思义,就像流言蜚语一样,利用一种随机、带有传染性的方式,将信息传播到整个网络中,并在一定时间内,使得系统内的所有节点数据一致。Gossip其实是一种去中心化思路的分布式协议,解决信息在集群中的传播和最终一致性。


2.1 原理


Gossip协议的消息传播主要有两种:反熵(Anti-Entropy)和谣言传播(Rumor-Mongering)。


2.1.1 反熵:节点相对固定,节点数量不多,以固定概率传播所有的数据


每个节点周期性地随机选择其他节点,通过互相交换各自的所有数据来消除两者之间的差异,实现数据的最终一致性。反熵非常可靠,但每次节点两两交换各自的所有数据会带来非常大的通信负担,因此不会频繁使用。通过引入校验和等机制,可以降低需要对比的数据量和传播消息量。


反熵 使用“simple epidemics”方式,其包含两种状态:susceptible和infective,这种模型也称为SI model。处于infective状态的节点代表其有数据更新,并且会将这个数据分享给其他节点;处于susceptible状态的节点代表其并没有收到来自其他节点的更新。



图17 反熵


2.2.2 谣言传播:节点动态变化,节点数量较多,仅传播新到达的数据


当一个节点有了新信息后,这个节点变成活跃状态,并周期性地向其他节点传播新信息。直到所有的节点都知道该新信息。由于节点之间只传播新信息,所以大大减少了通信负担。


谣言传播 使用“complex epidemics”方法,比反熵 多了一种状态:removed,这种模型也称为SIR model。处于removed状态的节点说明其已经接收到来自其他节点的更新,但是其并不会将这个更新分享给其他节点。因为谣言消息会在某个时间标记为removed,然后不会再被传播给其他节点,所以谣言传播有极小概率使得所有节点数据不一致。



图18 谣言传播


一般来说,为了在通信代价和可靠性之间取得折中,需要将这两种方法结合使用。


2.2 通信方式


节点间的交互主要有三种方式:推、拉和推/拉



图19 节点状态


2.2.1 推送模式(push)


节点A随机选择联系节点B,并向其发送自己的信息,节点B在收到信息后比较/更新自己的数据。



图20 推方式


2.2.2 拉取模式(pull)


节点A随机选择联系节点B,从对方获取信息,节点A在收到信息后比较/更新自己的数据。



图21 拉方式


2.2.3 推/拉模式(push/pull)


节点A向选择的节点B发送信息,同时从对方获取信息,节点A和节点B在收到信息后各自比较/更新自己的数据。



图22 推/拉方式


2.3 优缺点



  • 优点

    • 可扩展性(Scalable): Gossip协议是可扩展的,一般需要 O(logN) 轮就可以将信息传播到所有的节点,其中N代表节点的个数。每个节点仅发送固定数量的消息,并且与网络中节点数目无关。在数据传送时,节点并不会等待消息的Ack,所以消息传送失败也没有关系,因为可以通过其他节点将消息传递给之前传送失败的节点。允许节点的任意增加和减少,新增节点的数据最终会与其他节点一致。

    • 容错(Fault-tolerance): 网络中任何节点的重启或者宕机都不会影响 Gossip 消息的传播,具有天然的分布式系统容错特性。

    • 健壮性(Robust): Gossip协议是去中心化的协议,集群中的所有节点都是对等的,没有特殊的节点,所以任何节点出现问题都不会阻止其他节点继续发送消息。任何节点都可以随时加入或离开,而不会影响系统的整体服务质量。

    • 最终一致性(Convergent consistency): Gossip协议实现信息指数级的快速传播,因此在有新信息需要传播时,消息可以快速地发送到全局节点,在有限的时间内能够做到所有节点都拥有最新的数据。



  • 缺点

    • 消息延迟:节点随机向少数几个节点发送消息,消息最终是通过多个轮次的散播而到达全网,不可避免的造成消息延迟。

    • 消息冗余:节点定期随机选择周围节点发送消息,而收到消息的节点也会重复该步骤,不可避免地引起同一节点消息多次接收,增加消息处理压力。




三、参考


作者:科英
来源:juejin.cn/post/7251501954156855352

收起阅读 »

全局唯一ID生成

在Java中,可以使用多种方法生成唯一的ID。下面我将介绍几种常用的方法: UUID(Universally Unique Identifier):UUID是一种128位的唯一标识符。它可以通过java.util.UUID类来生成,使用UUID.rando...
继续阅读 »

在Java中,可以使用多种方法生成唯一的ID。下面我将介绍几种常用的方法:




  1. UUID(Universally Unique Identifier):UUID是一种128位的唯一标识符。它可以通过java.util.UUID类来生成,使用UUID.randomUUID()方法返回一个新的UUID。UUID的生成是基于时间戳和计算机MAC地址等信息,因此几乎可以保证全局唯一性。


    import java.util.UUID;

    public class UniqueIdExample {
    public static void main(String[] args) {
    UUID uuid = UUID.randomUUID();
    String id = uuid.toString();
    System.out.println(id);
    }
    }



  2. 时间戳:可以使用当前时间戳作为唯一ID。使用System.currentTimeMillis()方法可以获取当前时间的毫秒数作为ID值。需要注意的是,时间戳只是在同一台机器上保持唯一性,在分布式系统中可能存在重复的风险。


    public class UniqueIdExample {
    public static void main(String[] args) {
    long timestamp = System.currentTimeMillis();
    String id = String.valueOf(timestamp);
    System.out.println(id);
    }
    }



  3. Snowflake算法:Snowflake是Twitter开源的一种分布式ID生成算法,可以生成带有时间戳、机器ID和序列号的唯一ID。可以使用第三方库(如Twitter的Snowflake)来生成Snowflake ID。Snowflake ID的生成是基于时间序列、数据中心ID和机器ID等参数的。


    import com.twitter.snowflake.SnowflakeIdGenerator;

    public class UniqueIdExample {
    public static void main(String[] args) {
    SnowflakeIdGenerator idGenerator = new SnowflakeIdGenerator();
    long id = idGenerator.nextId();
    System.out.println(id);
    }
    }



以上是一些常用的生成唯一ID的方法,每种方法都有自己的特点和适用场景。选择合适的方法要根据具体需求、性能要求

作者:Lemonade22
来源:juejin.cn/post/7250037058684583995
以及系统架构来决定。

收起阅读 »

Web的攻击技术: 别让我看到你网站的缺陷,不然你看我打不打你🍗🍗🍗

简单的 HTTP 协议本身并不存在安全性问题,因此协议本身几乎不会成为攻击的对象。应用 HTTP 协议的服务器和客户端,已经运行在服务器上的 Web 应用等资源才是攻击目标。 在客户端即可篡改请求 在 Web 应用中,从浏览器那接收到的 HTTP 请求的全部内...
继续阅读 »

简单的 HTTP 协议本身并不存在安全性问题,因此协议本身几乎不会成为攻击的对象。应用 HTTP 协议的服务器和客户端,已经运行在服务器上的 Web 应用等资源才是攻击目标。


在客户端即可篡改请求


Web 应用中,从浏览器那接收到的 HTTP 请求的全部内容,都可以在客户端自由地变更、篡改。所以 Web 应用可能会接收到与预期数据不相同的内容。


HTTP 请求报文内加载攻击代码,就能立发起对 Web 应用的攻击,通过 URL 查询字段或表单、HTTP 首部、Cookie 等途径吧攻击代码传入,若这时 Web 应用存在安全漏洞,那内部信息就会遭到窃取,或被攻击者拿到管理权限。
20230701072440


针对 Web 应用的攻击模式


Web 应用的攻击模式有以下两种:



  • 主动攻击;

  • 被动攻击;


以服务器为目标的主动攻击


主动攻击是指攻击者通过直接访问 Web 应用,把攻击代码传入的模式,由于该模式是直接针对服务器上的资源进行攻击,因此攻击者能够访问到那些资源。


主动攻击模式里面具有代表性的攻击是 SQL 注入攻击和 OS 命令注入攻击。


20230701072818


以服务器为目标的被动攻击


被动攻击是指利用圈套策略执行攻击代码的攻击模式,在被动攻击过程中,攻击者不直接对目标 Web 应用访问发起攻击。


被动攻击通常的攻击模式如下所示:



  1. 攻击者诱使用户触发已设置好的陷阱,而陷阱会启动发送已嵌入攻击代码的 HTTP 请求;

  2. 当用户不知不觉中招之后,用户的浏览器或邮件客户端会触发这个陷阱;

  3. 中招后的用户浏览器会把含有攻击代码的 HTTP 请求发送给作为攻击目标的 Web 应用,运行攻击代码;

  4. 执行完攻击代码,存在安全漏洞的 Web 应用会成为攻击者的跳板,可能导致用户所持的 Cookie 等个人信息被窃取,登录状态中的用户权限遭恶意滥用等后果。


被动攻击模式中具有代表性的攻击是跨站脚本攻击和跨站点请求伪造。
20230701074804


利用被动攻击,可发起对原本从互联网上无法直接访问的企业内网等网络的攻击。只要用户踏入攻击者预先设好的陷阱,在用户能够访问到的网络范围内,即使是企业内网也同样会受到攻击。


20230701075024


因输出值转移不完全引发的安全漏洞


实施 Web 应用的安全对策可大致分为以下两部分:



  • 客户端的验证;

  • Web 应用端的验证:

    • 输入值验证;

    • 输出值转义;




20230701075829


因为 JavaScript 代码可以在客户端随便修改或者删除,所以不适合将 JavaScript 验证作为安全的方法策略。保留客户端验证只是为了尽早地辨识输入错误,起到提高 UI 体验的作用。


输入值验证通常是指检查是否是符合系统业务逻辑的数值或检查字符编码等预防对策。


从数据库或文件系统、HTML、邮件等输出 Web 应用处理的数据之际,针对输出做值转义处理是一项至关重要的安全策略。当输出值转义不完全时,会因触发攻击者传入的攻击代码,而给输出对象带来损害。


跨站脚本攻击


跨站脚本攻击(Cross-Site Scripting,XSS)是指通过存在安全漏洞的 Web 网站注册用户的浏览器内运行非法的 HTML 标签或 JavaScript 进行的一种攻击。动态创建的 HTML 部分有可能隐藏这安全漏洞。就这样,攻击者编写脚本设下陷阱,用户在自己的浏览器上运行时,一不小心就会受到被动攻击。


跨站脚本攻击有可能造成一下影响:



  • 利用虚假输入表单骗取用户个人信息;

  • 利用脚本窃取用户的 Cookie 值,被害者在不知情的情况下,帮助攻击者发送恶意请求;

  • 显示伪造的文章或图片;


跨站脚本攻击案例


在动态生成 HTML 处发生


下面以编辑个人信息页面为例讲解跨站脚本攻击,下放界面显示了用户输入的个人信息内容:
20230701090312


确认姐妹按原样显示在编辑解密输入的字符串。此处输入带有山口伊朗这样的 HTML 标签的字符串。


那如果我把输入的内容换成一段 JavaScript 代码呢,阁下又该如何应对?


<script>
alert("落霞与孤鹜齐飞,秋水共长天一色!");
</script>

XSS 是攻击者利用预先设置的陷阱触发的被动攻击


跨站脚本攻击属于被动攻击模式,因此攻击者会事先布置好用于攻击的陷阱。


下图网站通过地址栏中 URI 的查询字段指定 ID,即相当于在表单内自动填写字符串的功能。而就在这个地方,隐藏着可执行跨站脚本攻击的漏洞。
20230701091251


充分熟知此处漏洞特点的攻击者,于是就创建了下面这段嵌入恶意代码的 URL。并隐藏植入事先准备好的欺诈邮件中或 Web 页面内,诱使用户去点击该 URL


浏览器打开该 URI 后,直观感觉没有发生任何变化,但设置好的脚本却偷偷开始运行了。当用户在表单内输入 ID 和密码之后,就会直接发送到攻击者的网站,导致个人登录信息被窃取。


之后,ID 及密码会传给该正规网站,而接下来仍然是按正常登录步骤,用户很难意识到自己的登录信息已遭泄露。


除了在表单中设下圈套之外,下面那种恶意构造的脚本统一能够通过跨站脚本攻击的方式,窃取到用户的
Cookie 信息:


const cookie = document.cookie;

执行上面这段 JavaScript 程序,即可访问到该 Web 应用所处域名下的 Cookie 信息,然后这些信息会发送至攻击者的 Web 网站,记录在它的登录日志中,攻击者就这样窃取到用户的 cookie 信息了。


React 中通过 JSX 语法转义来防止 XSS。在 JSX 语法中,可以通过花括号 {} 插入 JavaScript 表达式。JSX 语法会自动转义被插入到 HTML 标签之间的内容。这意味着任何用户输入的内容都会被转义,以防止恶意脚本的执行。在转义过程中,React 会将特殊字符进行转换,例如将小于号 < 转义为 <、大于号 > 转义为 >、引号 " 转义为 " 等。这样可以确保在渲染时,用户输入的内容被当作纯文本处理,而不会被解析为 HTML 标签或 JavaScript 代码。


SQL 注入攻击


会执行非法 SQL 的 SQL 注入攻击


SQL 注入是指针对 Web 应用使用的数据库,通过运行非法的 SQL 而产生的攻击。该安全隐患有可能引发极大的威胁,有时会直接导致个人信息及机密信息的泄露。


SQL 注入攻击有可能会造成以下等影响:



  • 非法查看或篡改数据库内的数据;

  • 规避认证;

  • 执行和数据库服务器业务关联的程序等;


SQL 注入攻击案例



  • 登录绕过攻击: 攻击者可以在登录表单的用户名和密码字段中插入恶意的 SQL 代码。如果应用程序未对输入进行正确的验证和过滤,攻击者可以通过在用户名字段中输入 ' OR '1'='1 的恶意输入来绕过登录验证,使得 SQL 语句变为:SELECT \* FROM users WHERE username = '' OR '1'='1' AND password = '<输入的密码>',从而成功登录到系统中;

  • 删除或修改数据攻击: 攻击者可以通过注入恶意的 SQL 代码来删除或修改数据库中的数据。例如,攻击者可以在一个表单的输入字段中插入 '; DROP TABLE users;-- 的恶意输入。如果应用程序未正确处理这个输入,攻击者可以成功删除用户表(假设表名为 "users")导致数据丢失;


OS 命令注入攻击


OS 命令注入攻击是指通过 Web 应用,执行非法的操作系统命令达到攻击的目的。只要在能调用 Shell 函数的地方就有存在被攻击的风险。


可以从 Web 应用中通过 Shell 来调用操作系统命令,如果调用 Shell 是存在疏漏,就可以执行插入的非法 OS 命令。


OS 命令注入攻击可以向 Shell 发送命令,让 WindowsLinux 操作系统的命令行启动程序。也就是说,通过 OS 注入攻击可执行 OS 上安装着的各种程序。


OS 注入攻击案例



  • 文件操作攻击: 攻击者可以在应用程序的输入字段中插入恶意的操作系统命令来执行文件操作。例如,如果应用程序在文件上传过程中未对输入进行适当的验证和过滤,攻击者可以在文件名字段中插入 '; rm -rf / ;-- 的恶意输入。如果应用程序在执行文件操作时没有正确处理这个输入,攻击者可能会删除服务器上的所有文件;

  • 远程命令执行攻击: 攻击者可以通过注入恶意的操作系统命令来执行远程系统命令。例如,如果应用程序在一个输入字段中插入 ; ping <恶意 IP 地址> ; 的恶意输入,而没有进行正确的输入验证和过滤,攻击者可以利用该注入漏洞执行远程命令,对目标系统进行攻击或探测;


HTTP 首部注入攻击


HTTP 首部注入攻击是指攻击者通过在响应首部字段内插入换行,添加任意响应首部或主体的一种攻击。属于被动攻击模式。


HTTP 首部注入攻击有可能造成以下一些影响:



  • 设置任何 Cookie 信息;

  • 重定向值任意 URL;

  • 显示任意的主体;


HTTP 首部注入攻击案例


以下是一些 HTTP 首部注入攻击的案例,展示了攻击者是如何利用该漏洞进行攻击的:



  • 重定向攻击: 攻击者可以在 HTTP 响应的 Location 首部中插入恶意 URL,从而将用户重定向到恶意网站或欺骗性的页面。如果应用程序未正确验证和过滤用户输入,并将其直接用作 Location 首部的值,攻击者可以在 URL 中插入换行符和其他特殊字符,添加额外的首部字段,导致用户被重定向到意外的位置;

  • 缓存投毒攻击: 攻击者可以在 HTTP 响应的 Cache-Control 或其他缓存相关首部中插入恶意指令,以欺骗缓存服务器或浏览器,导致缓存数据的污染或泄漏。攻击者可以通过注入换行符等特殊字符来添加额外的首部字段或修改缓存指令,绕过缓存机制或引发信息泄露;

  • HTTP 劫持攻击: 攻击者可以在 HTTP 响应的 LocationRefresh 首部中插入恶意 URL,将用户重定向到恶意网站或欺骗性页面,从而劫持用户的会话或执行其他攻击。通过在响应中插入恶意的 LocationRefresh 值,攻击者可以修改用户的浏览器行为;

  • XSS 攻击: 攻击者可以在 HTTP 响应的 Set-Cookie 或其他首部字段中插入恶意脚本,以执行跨站脚本攻击。如果应用程序未正确过滤和转义用户输入,并将其插入到首部字段中,攻击者可以通过注入恶意代码来窃取用户的会话标识符或执行其他恶意操作;


因会话管理疏忽引发的安全漏洞


会话管理是用来管理用户状态的必备功能,但是如果在会话管理上有所疏忽,就会导致用户的认证状态被窃取等后果。


会话劫持


会话劫持是指攻击者通过某种手段拿到了用户的会话 ID,并非法使用此会话 ID 伪装成用户,达到攻击的目的:
20230701104716


具备人中功能的 Web 应用,使用会话 ID 的会话管理机制,作为管理认证状态的主流方式。会话 ID 中记录客户端的 Cookie 等信息,服务端将会话 ID 与认证状态进行一对一匹配管理。


下面列举了几种攻击者可获得会话 ID 的途径:



  • 通过非正规的生成方法推测会话 ID;

  • 通过窃听或 XSS 攻击盗取会话 ID;

  • 通过会话固定攻击强行获取会话 ID;


会话劫持攻击案例


下面我们以认证功能为例讲解会话劫持。这里的认证功能通过会话管理机制,会将成功认证的用户的会话 ID,保存在用户浏览器的 Cookie 中。
20230701105419


攻击者在得知该 Web 网站存在可跨站攻击的安全漏洞后,就设置好用 JavaScript 调用 document.cookie 以窃取 cookie 信息的陷阱,一旦用户踏入陷阱访问了该脚本,攻击者就能获取含有会话的 IDCookie


攻击者拿到用户的会话 ID 后,往自己的浏览器的 Cookie 中设置该会话 ID,即可伪装成会话 ID 遭窃的用户,访问 Web 网站了。


会话固定攻击


对一切去目标会话 ID 为主动攻击手段的会话劫持而言,会话固定攻击 攻击会强制用户使用指定的会话 ID,属于被动攻击。


会话固定攻击案例


下面我们以认证功能为例讲解会话固定攻击,这个 Web 网站的认证功能,会在认证前发布一个会话 ID,若认证成功,就会在服务器内改变认证状态。


20230701152056


攻击者准备陷阱,先访问 Web 网站拿到会话 ID,此刻,会话 ID 在服务器上的记录仪仍是未认证状态。


攻击者设计好强制用户使用该会话 ID 的陷阱,并等待用户拿着这个会话 ID 前去认证,一旦用户触发陷阱并完成认证,会话 ID 服务器上的状态(用户 A 已认证) 就会被记录下来。


攻击者估计用户差不多已触发陷阱后,再利用之前这个会话 ID 访问网站,由于该会话 ID 目前已是用户 A 已认证状态,于是攻击者作为用户 A 的身份顺利登陆网站。


会话固定攻击预防措施


会话固定攻击利用了应用程序在身份验证和会话管理过程中未正确处理会话标识符的漏洞。为了防止会话固定攻击,开发人员可以采取以下措施:



  1. 生成随机、唯一的会话标识符,并在用户每次登录或创建新会话时重新生成;

  2. 不接受用户提供的会话标识符,而是通过服务器生成并返回给客户端;

  3. 在身份验证之前和之后,对会话标识符进行适当的验证和验证机制;

  4. 设置会话管理策略,包括会话超时时间和注销会话的方式;


通过采取这些预防措施,可以减少会话固定攻击的风险,并提高应用程序的安全性。


跨站点请求伪造


跨站点伪造请求(Cross-Site Require Forgeries,CSRF)攻击是指攻击者通过设置好的陷阱,强制用户对已完成认证的用户进行非预期的个人信息或设定信息等某些状态更新,属于被动攻击。


跨站点请求伪造有可能会造成一下等影响:



  • 利用已通过认证的用户权限更新设定信息等;

  • 利用已通过认证的用户权限购买商品;

  • 利用已通过认证的用户权限在评论区发表言论;


跨站点伪造请求的攻击案例


下面以一个网站的登录访问功能为例,讲解跨站点请求伪造,如下图所示:
20230701160321



  1. 当用户输入账号信息请求登录 A 网站;

  2. A 网站验证用户信息,通过验证后返回给用户一个 cookie;

  3. 在未退出网站 A 之前,在同一浏览器中请求了黑客构造的恶意网站 B;

  4. B 网站收到用户请求后返回攻击性代码,构造访问 A 网站的语句;

  5. 浏览器收到攻击性代码后,在用户不知情的情况下携带 cookie 信息请求了 A 网站。此时 A 网站不知道这是由 B 发起的。那么这时黑客就可以为所欲为了!!!


这首先必须瞒住两个条件:



  • 用户访问站点 A 并产生了 Cookie;

  • 用户没有退出 A 网站同时访问了 B 网站;


CSRF 攻击的防御


当涉及到跨站伪造请求的防御时,一下是一些防御方法和实践:




  1. 验证来源和引用检查:



    • 服务器端应该验证每个请求的来源 Referer 字段和源 Origin 字段以确保请求来自预期的域名或网站。如果来源不匹配,服务器应该拒绝请求。Referer 头部并不是 100% 可靠,因为某些浏览器或网络代理可能会禁用或篡改该字段。因此,Origin 字段被认为是更可靠的验证来源的方式;




  2. CSRF Token:



    CSRF 令牌是一个随机生成的值,嵌入到表单或请求参数中,与用户会话相关联。它的目的是验证请求的合法性,确保请求是由预期的用户发起的,而不是由攻击者伪造的。




    • 在每个表单和敏感操作的请求中,包括一个 CSRF 令牌;

    • 令牌可以作为隐藏字段 input type="hidden" 或请求头,例如 X-CSRF-Token 的一部分发送;

    • 在服务器端,验证请求中的令牌是否与用户会话中的令牌匹配,以确保请求的合法性;




  3. 验证请求的方法: 某些敏感操作应该使用 POSTPUTDELETE 等非幂等方法,而不是 GET 请求。这样可以防止攻击者通过构造图片或链接等 GET 请求来触发敏感操作;




  4. 敏感操作的二次确认: 对于一些敏感操作,例如修改密码、删除账户等,可以在用户执行操作前要求二次确认,以确保用户的意图和授权;




综合采取上述防御措施,可以有效减少跨站伪造请求攻击的风险。然而,没有单一的解决方案可以完全消除跨站伪造请求的威胁,因此建议在开发过程中将安全性作为一个关键考虑因素,并进行全面的安全测试和审查。


参考文献


书籍: 图解HTTP


总结


没有总结,总结个屁,不上网就是

作者:Moment
来源:juejin.cn/post/7251158799318057015
最安全的......

收起阅读 »

API接口对于企业数字化转型有哪些重要意义?

当前,有很多企业都在加速进行数字化转型,随着AI等新技术的不断发展,企业的交付和数据管理能力已经无法满足需求。以数据为例,不少企业内部存在数据难题无法解决,一方面数据孤岛使得数据分散且多个业务系统之间难以打通,业务衔接不够顺畅,导致用户使用系统会更加复杂,数字...
继续阅读 »

当前,有很多企业都在加速进行数字化转型,随着AI等新技术的不断发展,企业的交付和数据管理能力已经无法满足需求。以数据为例,不少企业内部存在数据难题无法解决,一方面数据孤岛使得数据分散且多个业务系统之间难以打通,业务衔接不够顺畅,导致用户使用系统会更加复杂,数字化作用失效;另一方面数据共享开放的需求明显,但是数据安全无法保障,部分企业客户倾向于线下提供数据进行共享,会导致数据无法实时更新而且无法控制数据的流向。这两大问题既无法提高企业的业务效能,也影响到数据的安全。因此企业迫切需要进行数字化转型,才能跟上数字化浪潮的发展。

这其中最关键的方式就是使用API接口服务,那么API是如何赋能企业数字化转型的呢?


首先,不少企业内部都储存了海量的高价值数据,API能够帮助打破数据孤岛怪圈,让数据得到有效利用,开发人员能自由访问、组合数字资产,最终实现整体的协同效果,企业数据管理环境的复杂性得到了解决。
其次,API可以构造多个业务相关的接口服务与交付,企业的交付周期大大缩短,同时因为减少了代码量,开发效率得到有效提升,企业内部快速实现了降本增效。
最后,API开放平台能够实现IT资产和运维可视化以及IT资产的安全管控, 促进生态系统的形成,同时开发人员能够更方便地进行实验,创新并响应不断变化的客户需求。

数聚变平台打造了一个深耕新能源领域的API生态平台,目前已经覆盖了数据采集转发、数据集成共享、数据要素开放流通、企业数字化咨询和API全生命周期管理等多个功能模块,有效助力企业实现数字化转型。

收起阅读 »

你的密码安全吗?这三种破解方法让你大开眼界!

密码破解,是黑客们最喜欢的玩具之一。当你用“123456”这类简单密码来保护你的账户时,就像裸奔一样,等待着黑客的攻击。所以,今天我们就来聊聊密码破解知识,看看那些常见的密码破解方法,以及如何防范它们。 1、暴力破解 首先,我们来介绍一下最简单、最暴力的密码破...
继续阅读 »

密码破解,是黑客们最喜欢的玩具之一。当你用“123456”这类简单密码来保护你的账户时,就像裸奔一样,等待着黑客的攻击。所以,今天我们就来聊聊密码破解知识,看看那些常见的密码破解方法,以及如何防范它们。


1、暴力破解


首先,我们来介绍一下最简单、最暴力的密码破解方法——暴力破解。


什么是暴力破解密码呢?


简单来说,就是 攻击者通过穷举所有可能的密码组合来尝试猜测用户的密码。如果你的密码太简单或者密码空间较小,那么暴力破解密码的成功几率会增加。


暴力破解密码的一般步骤:


step1:确定密码空间


密码空间是指所有可能的密码组合。密码空间的大小取决于密码的长度和使用的字符集。例如,对于一个只包含数字的4位密码,密码空间就是从0000到9999的所有组合。


step2:逐个尝试密码


攻击者使用自动化程序对密码空间中的每个密码进行逐个尝试。这可以通过编写脚本或使用专门的密码破解工具来实现。攻击者从密码空间中选择一个密码并将其用作尝试的密码。


step3:比对结果


对于每个尝试的密码,攻击者将其输入到目标账户进行验证。如果密码正确,那么攻击者成功破解了密码。否则,攻击者将继续尝试下一个密码,直到找到匹配的密码为止。


那么我们该如何防范暴力破解呢?


方案1:增强密码策略


增强密码策略,即选择强密码。强密码应该包括足够的长度、复杂的字符组合和随机性,以增加密码空间的大小,从而增加破解的难度。比如说,“K3v!n@1234”这样的密码就比“123456”要强得多。


方案2:登录尝试限制


限制登录尝试次数,例如设置最大尝试次数和锁定账户的时间。


方案3:双因素身份验证


我们还可以引入双因素身份验证,要求用户提供额外的验证信息,如验证码、指纹或硬件令牌等。


通过综合使用这些安全措施,我们可以大大减少暴力破解密码的成功几率,并提高账户和系统的安全性。


2、彩虹表攻击


接下来,我们来介绍一种更加高级、更加可怕的密码破解方法——彩虹表攻击。


彩虹表攻击是一种 基于预先计算出的哈希值与明文密码对应关系的攻击方式


攻击者通过预先计算出所有可能的哈希值与对应的明文密码,并将其存储在一个巨大的“彩虹表”中。


当需要破解某个哈希值时,攻击者只需要在彩虹表中查找对应的明文密码即可。


攻击者生成彩虹表时需要耗费大量的计算和存储资源,但一旦生成完成,后续的密码破解速度就会非常快。


彩虹表攻击的基本原理如下:


step1:生成彩虹表


攻击者事先生成一张巨大的彩虹表,其中包含了输入密码的哈希值和对应的原始密码。彩虹表由一系列链条组成,每个链条包含一个起始密码和相应的哈希值。生成彩虹表的过程是耗时的,但一旦生成完成,后续的破解过程会变得非常快速。


step2:寻找匹配


当攻击者获取到被保护的密码哈希值时,他们会在彩虹表中搜索匹配的哈希值。如果找到匹配,就意味着找到了原始密码。


step3:链表查找


如果在彩虹表中没有找到直接匹配的哈希值,攻击者将使用哈希值在彩虹表中进行一系列的链表查找。他们会在链表上依次应用一系列的哈希函数和反向函数,直到找到匹配的密码。


那如何防范呢?


方案1:盐值(Salt)


使用随机盐值对密码进行加密。盐值是一个随机的字符串,附加到密码上,使得每次生成的哈希值都不同。这样即使相同的密码使用不同的盐值生成哈希,也会得到不同的结果,使得彩虹表无效。


方案2:迭代哈希函数


多次迭代哈希函数是指对原始密码进行多次连续的哈希运算的过程。


通常情况下,单次哈希函数的计算速度是相当快的,但它可能容易受到彩虹表等预先计算的攻击。为了增加密码的破解难度,我们可以通过多次迭代哈希函数来加强密码的安全性。


在多次迭代哈希函数中,原始密码会被重复输入到哈希函数中进行计算。每次哈希运算的结果会作为下一次的输入,形成一个连续的链式计算过程。例如,假设初始密码为 "password",哈希函数为 SHA-256,我们可以进行如下的多次迭代哈希计算:



  1. 首先,将初始密码 "password" 输入 SHA-256 哈希函数中,得到哈希值 H1。

  2. 将哈希值 H1 再次输入 SHA-256 哈希函数中,得到哈希值 H2。

  3. 将哈希值 H2 再次输入 SHA-256 哈希函数中,得到哈希值 H3。

  4. 以此类推,进行多次迭代。


通过多次迭代哈希函数,我们可以增加密码破解的难度。攻击者需要对每一次迭代都进行大量的计算,从而大大增加了密码破解所需的时间和资源成本。同时,多次迭代哈希函数也提供了更高的密码强度,即使原始密码较为简单,其哈希值也会变得复杂和难以预测。


需要注意的是,多次迭代哈希函数的次数应根据具体的安全需求进行选择。次数过少可能仍然容易受到彩虹表攻击,而次数过多可能会对系统性能产生负面影响。因此,需要在安全性和性能之间进行权衡,并选择适当的迭代次数。


方案3:长度和复杂性要求


要求用户选择强密码,包括足够的长度、复杂的字符组合和随机性,以增加彩虹表的大小和密码破解的难度。


3、字典攻击


最后,我们来介绍一种基于字典的密码破解方法——字典攻击。


字典攻击是 通过使用一个包含常见单词和密码组合的字典文件来尝试破解密码(这文件就是我们常说的字典)。这种方法比暴力破解要高效得多,因为它可以根据常见密码和单词来进行尝试。


如果你使用了常见单词或者简单密码作为密码,那么字典攻击很有可能会成功。


以下是字典攻击的一般步骤:


step1:收集密码字典


攻击者会收集各种常见密码、常用字词、常见姓名、日期、数字序列等组成的密码字典。字典可以是公开的密码列表、泄露的密码数据库或通过爬取互联网等方式获得。


step2:构建哈希表


攻击者会对密码字典中的每个密码进行哈希运算,并将明文密码与对应的哈希值构建成一个哈希表,方便后续的比对操作。


step3:逐个比对


攻击者使用字典中的密码与目标账户的密码进行逐个比对。对于每个密码,攻击者将其进行哈希运算,并与目标账户存储的哈希值进行比较。如果找到匹配的哈希值,那么密码就被破解成功。


字典攻击的成功取决于密码的强度和字典的质量。


如果用户使用弱密码或常见密码,很容易受到字典攻击的威胁。为了抵御字典攻击,用户应该选择强密码,包括使用足够的长度、复杂的字符组合和随机性,以增加密码的猜测难度。而系统设计者可以使用前文介绍的方式来防止密码被破解,如密码加盐和限制登录尝试次数等。


好啦,今天的分享就到这里啦!希望大家都能保护好自己的账户安全,不要成

作者:陈有余Tech
来源:juejin.cn/post/7250866224429563941
为黑客攻击的目标哦!

收起阅读 »

PC网站如何实现微信扫码登录

不管你运营什么类型的网站,用户注册都是很重要的一个环节,用户注册的方式也是很多的,比如邮箱注册、手机号注册、第三方授权登录等。其中,第三方授权登录是最常用的一种方式,微信扫码登录是其中的一种,但是微信扫码登录的实现方式有很多种,比如公众号扫码,小程序扫码,网页...
继续阅读 »

不管你运营什么类型的网站,用户注册都是很重要的一个环节,用户注册的方式也是很多的,比如邮箱注册、手机号注册、第三方授权登录等。其中,第三方授权登录是最常用的一种方式,微信扫码登录是其中的一种,但是微信扫码登录的实现方式有很多种,比如公众号扫码,小程序扫码,网页扫码等。


本文将介绍一种简单的实现方式。


技术栈



  • 后端:NodeJs / 企业级框架 Egg.js

  • 前端:Vue

  • 微信小程序:uni-app

  • 数据库:MySQL


实现思路



  1. PC 端网站生成一个二维码,定时 3s 轮询请求接口,判断用户是否扫码,如果扫码,则返回用户的微信信息。

  2. 用户微信扫码后,会跳转到微信小程序,小程序打开点击注册按钮,会获取到用户的微信信息,然后将用户信息发送到后端。

  3. 后端接收到用户信息后,判断用户是否已经注册,如果已经注册,则直接登录,如果没有注册,则将用户信息 openid 和 mobile 保存到数据库中,新建用户,生成一个 token,返回给 PC 端,展示用户登录成功。

  4. 微信小程序展示用户扫码成功。


实现步骤




  • 需要申请一个微信小程序,用于扫码登录,申请地址:mp.weixin.qq.com/




  • 建表






  • PC 端网站生成二维码



实现效果如下:





  • 微信小程序扫码登录








  • 后端接口实现


路由:app/router.js




  • 生成带唯一 scene 参数的小程序码


app/controller/login.js




收起阅读 »

什么是布隆过滤器?在php里你怎么用?

布隆过滤器(Bloom Filter)是一种用于快速判断一个元素是否属于某个集合的概率型数据结构。它基于哈希函数和位数组实现,可以高效地检索一个元素是否存在,但不提供元素具体的存储和获取功能。 布隆过滤器原理 上面的思路其实就是布隆过滤器的思想,只不过因为 ...
继续阅读 »

布隆过滤器(Bloom Filter)是一种用于快速判断一个元素是否属于某个集合的概率型数据结构。它基于哈希函数和位数组实现,可以高效地检索一个元素是否存在,但不提供元素具体的存储和获取功能。


image.png


布隆过滤器原理


上面的思路其实就是布隆过滤器的思想,只不过因为 hash 函数的限制,多个字符串很可能会 hash 成一个值。为了解决这个问题,布隆过滤器引入多个 hash 函数来降低误判率。


下图表示有三个 hash 函数,比如一个集合中有 x,y,z 三个元素,分别用三个 hash 函数映射到二进制序列的某些位上,假设我们判断 w 是否在集合中,同样用三个 hash 函数来映射,结果发现取得的结果不全为 1,则表示 w 不在集合里面。


image.png


布隆过滤器处理流程


布隆过滤器应用很广泛,比如垃圾邮件过滤,爬虫的 url 过滤,防止缓存击穿等等。下面就来说说布隆过滤器的一个完整流程,相信读者看到这里应该能明白布隆过滤器是怎样工作的。


第一步:开辟空间


开辟一个长度为 m 的位数组(或者称二进制向量),这个不同的语言有不同的实现方式,甚至你可以用文件来实现。


第二步:寻找 hash 函数


获取几个 hash 函数,前辈们已经发明了很多运行良好的 hash 函数,比如 BKDRHash,JSHash,RSHash 等等。这些 hash 函数我们直接获取就可以了。


第三步:写入数据


将所需要判断的内容经过这些 hash 函数计算,得到几个值,比如用 3 个 hash 函数,得到值分别是 1000,2000,3000。之后设置 m 位数组的第 1000,2000,3000 位的值位二进制 1。


第四步:判断


接下来就可以判断一个新的内容是不是在我们的集合中。判断的流程和写入的流程是一致的。


在PHP中如何使用?


在PHP中,可以使用BloomFilter扩展库或自行实现布隆过滤器。下面我将介绍两种方法。


1. 使用BloomFilter扩展库:


PHP中有一些第三方扩展库提供了布隆过滤器的功能。其中比较常用的是phpbloomd扩展,它提供了对布隆过滤器的支持。你可以按照该扩展库的文档进行安装和使用。


示例代码如下:


// 创建一个布隆过滤器
$filter = new BloomFilter();

// 向过滤器添加元素
$filter->add("element1");
$filter->add("element2");
$filter->add("element3");

// 检查元素是否存在于过滤器中
if ($filter->has("element1")) {
echo "Element 1 may exist.";
} else {
echo "Element 1 does not exist.";
}


2. 自行实现布隆过滤器:


如果你不想使用第三方扩展库,也可以自行实现布隆过滤器。下面是一个简单的自实现布隆过滤器的示例代码:


class BloomFilter {
private $bitArray;
private $hashFunctions;

public function __construct($size, $numHashFunctions) {
$this->bitArray = array_fill(0, $size, false);
$this->hashFunctions = $numHashFunctions;
}

private function hash($value) {
$hashes = [];
$hash1 = crc32($value);
$hash2 = fnv1a32($value);

for ($i = 0; $i < $this->hashFunctions; $i++) {
$hashes[] = ($hash1 + $i * $hash2) % count($this->bitArray);
}

return $hashes;
}

public function add($value) {
$hashes = $this->hash($value);

foreach ($hashes as $hash) {
$this->bitArray[$hash] = true;
}
}

public function has($value) {
$hashes = $this->hash($value);

foreach ($hashes as $hash) {
if (!$this->bitArray[$hash]) {
return false;
}
}

return true;
}
}

// 创建一个布隆过滤器
$filter = new BloomFilter(100, 3);

// 向过滤器添加元素
$filter->add("element1");
$filter->add("element2");
$filter->add("element3");

// 检查元素是否存在于过滤器中
if ($filter->has("element1")) {
echo "Element 1 may exist.";
} else {
echo "Element 1 does not exist.";
}


无论是使用扩展库还是自行实现,布隆过滤器在处理大规模数据集合时可以提供高效的元素存在性检查功能,适用于需要快速判断元素是否属于某个集合的场景。


作者:Student_Li
来源:juejin.cn/post/7249933985562984504
收起阅读 »