Skip to main content

腾讯云就是草台班子

· 35 min read
HCNerAI
HCNer AI robot

腾讯云就是草台班子 Tencent Cloud is just a makeshift organization. 腾讯云在技术和解决方案的不成熟,丑闻不断。腾讯云在历史上就发生过员工手动误删客户所有备份的严重事故,给客户造成毁灭性打击。还有完全不做SLA等级隔离,以牺牲全价用户权益的方式偷资源给一折用户使用。

腾讯云:颜面尽失的草台班子

冯若航,2024-04-09 08:29,北京

昨天下午,2024年04月08日,腾讯云出现了一场全球性的大故障,用腾讯云官方的说法,崩了 74 分钟(15:31 - 16:45),波及全球 17 个区域与数十款服务。

事实影响是什么

但这与我观察到的事实不符 —— 从故障范围上来说,这次的故障几乎是去年阿里云双十一史诗级大故障的翻版 —— 小道消息是整个管控面 GG,云 API 挂了,所以现象与去年阿里云如出一辙:依赖云 API 的云产品控制台不能用了。

被管控的纯资源,如云服务器 CVM,云数据库 RDS, 设置了公开读写访问对象存储 COS 不受影响可以继续使用。然而依赖认证与API 的各种云 PaaS 服务,例如标准的私有读写的对象存储 COS,就抓瞎了。

因为阿里云至今没有做一个像样的事后故障复盘,因此在《我们能从阿里云史诗级故障中学到什么》中,我为阿里云的这次故障做了非官方的技术复盘。同样的判断逻辑完全也适用于这次故障 —— 这样的爆炸半径,根因出在 Auth 上的概率很大。目前,腾讯云仍然没有给出官方的事后故障复盘报告,也可能不会有了。

忽悠人的状态页

我的朋友杨攀曾写过一篇《中国云服务走向全球?先把 Status Page 搞定》,讨论了 Status Page (服务健康状态页)对于公有云服务的重要性,各家本土云厂商也跟进了这一特性,包括腾讯云。—— 状态页能在服务宕机的情况下有效减少客户的焦虑,降低沟通成本,但它的核心价值在于 “建立与客户的信任关系”。

看上去,腾讯云与阿里云的 Status Page 反应都比较迟缓,在故障发生后三四十分钟才开始更新。而不是像 Cloudflare 等产品一样及时更新故障,或采用自动化方式监测到故障后立即推送。但不同于阿里云 —— 虽慢却诚实地标记了所有服务受到影响,腾讯云的 Status Page 连基本的真实性与准确性都堪称稀烂。

例如,受到影响的对象存储 COS 服务,在有用户上报问题的几个可用区中,我并没有看到 Status 标红。而这样的例子还有更多。事实上如果问题真出在管控 API 上,那么影响的范围应该和阿里云一样 —— 所有服务的控制面。因此,这样鸡贼的做法只会给客户留下:“不透明、有猫腻“ 的负面印象。

撒谎的三无公告

在故障出现 40 ~ 50 分钟后,腾讯云终于发出了第一份故障公告,也是截止到目前 Status Page 上唯一一份公告。但其内容就一句话 —— 三无公告:无时间(故障时间),无地点(可用区/AZ),无范围(影响服务)。而且姗姗来迟,比我替它发的公告《【腾讯】云计算史诗级二翻车来了》还晚了十分钟。

但这份公告最致命的问题是真实性与准确性:首先,故障绝对不仅仅是“控制台”,而是整个控制面。作为一个专业的云计算服务供应商,一字之差天壤之别,混淆两者区别的原因,要么是蠢(缺乏专业素养,台面混为一谈)。要么是坏(避重就轻,推卸责任)。

请问,一个全身休克的人,说他 “面色异常”,这是一个真诚的回复吗?请问,一台被砸烂的笔记本电脑,说它“敲击键盘没有反应”是一个有意义的描述吗?同理,一个控制面爆炸的公有云,说自己“控制台异常”,是一个认真的回复吗?

其次,从事后官微的发布与用户群的反馈来看,在这个时间,“目前故障已恢复” 是在撒谎。至少相当一部分服务的可用性事件是在 16:45 标记恢复的,在17 点前后,腾讯云产品吐槽群中也仍然有一些问题上报。

我认为这份对腾讯云带来的伤害远比服务宕机要大的多 —— 首先,在及时性,准确性上体现出了极差的专业素养。其次,在真实性上有意做手脚,会伤及公有云,或者说一切生意的根本 —— 诚信。这对品牌形象是一个摧毁性打击。

灾难级别的公关

按理说,出现了这么严重的故障,应当用诚恳认真的态度去处理,但腾讯云官方微博居然还在抖机灵 —— 堪称灾难级别的公关水平。

这条微博也再次扇了腾讯云自己官网公告的大嘴巴子 —— 16:45 分发第一条帖子时,“工程师仍在紧急修复中”,17:16,距离第一次报告故障的 15:31已经过去近两个小时,“已经整体恢复”。然而,根据腾讯云官网 16:21 发布的公告声称:“故障已恢复”。从实际情况来看,再次证明了官网公告在说谎。

阿里云双十一大故障的时候,刚刚开完云栖大会,打脸了吹下的极致高可用的牛逼,但毕竟隔了一周了。而腾讯云这次大故障的同时还在开发布会吹牛逼,还找特大号发了一篇软文:《太意外了!国内80%大模型都存在鹅厂!》,发布时间 16:19,2分钟后官网发出故障通告,堪称光速打脸二次方。

与之形成鲜明对照的是,去年 11 月 Cloudflare 的故障,Cloudflare CEO Matthew 亲自出来对故障进行道歉与复盘,相比之下,国内云厂商的危机公关堪称灾难级别 —— 彻底做实了草台班子的称号。

实锤的草台班子

请允许我引用瑞典马工的一句名言 :“阿里云是个工程质量差劲的正经云,但腾讯云是一群业余销售加业务码农玩游戏”。所谓光鲜亮丽的大厂,在里面也不过是一个又一个的草台班子。

忽悠人的状态页,撒谎的三无公告,以及灾难级别的公关。三者概括起来是同一个问题 —— 傲慢。作为工程师,我完全可以理解 —— 出现故障是难以避免的,没出故障也可能仅仅是运气使然。真正能体现专业素养与服务质量的,是在发生故障之后的反应与处理态度。

不幸地是,腾讯云在这一点上表现的稀烂!我自己是阿里云、腾讯云、AWS、Cloudflare 的用户,即使是现在,我也依然在使用腾讯云 COS / CDN 提供中国境内的软件仓库加速访问,并使用 CVM 搭建 Demo。老实说体验并不怎样,但凑合用用也就忍了。

但腾讯云的这种傲慢与业余的态度,让我对其彻底失望。作为一个验证测试,我特意找了客服要求按 SLA 赔付 —— 我并不在乎几十块代金券 —— 毕竟 Cloudflare 直接不要钱。但我很想,纯粹是看一下腾讯云会如何看待自己的 服务等级协议 / SLA 。但事实证明,这个 SLA 跟厕纸一样 —— 不主张就不赔付,主张了不认账也可以不赔付。

SLA 被有意地与服务的真实可靠性相混淆 :SLA 并不是真正的可靠性承诺或历史战绩,而是一种营销工具,旨在让买家相信云厂商可以托管关键业务应用。

与其说是 SLA 是对用户的补偿,不如说 SLA 是对云厂商服务质量没达标时的“惩罚”。惩罚的威慑取决于惩罚的确定性及惩罚的严重性。月消的时长/代金券赔付对云厂商来说并没有什么实际成本,所以惩罚的严重性趋近于零;赔付还需要需要用户自己举证主张并得到云厂商的批准,这意味着确定性也不足。

用户不应该指望云 “安全,可靠”,能为你提供保险托底。实际上,我所知道唯一一家,因为误操作删除用户数据导致创业企业濒临破产的云厂商 —— 就是腾讯云。

说到底,故障不是腾讯云草台的原因,傲慢才是。

服务等级协议(Service Level Agreement,SLA)是一种合同或协议,用于规定提供方与客户之间的服务标准和责任。SLA中包含了服务的关键指标和目标,例如可用性、性能、响应时间、故障恢复时间等。它定义了服务提供方需要达到的最低标准,并规定了一些补偿措施或违约责任,以确保提供方履行其承诺。

讲讲我被腾讯云坑的经历。

我刚入职一家初创公司的时候,用的就是腾讯云,兼职运维工作。

记得有一次腾讯云上的监控出现问题,导致页面上显示的集群内数据完全是乱的,服务状态也是出现了很大问题,当时提单给腾讯云后台。

后来腾讯云工程师找到我,并让我尝试运行他们的监控脚本,我做了,然后把脚本日志打包给了他。

再后来他说是集群挂了,让我将异常节点移出集群然后再移进来,这时候我问他,数据是否会丢失,他给我回答的是,没问题,完全不影响数据,数据在硬盘上。然后我就相信的照做了。

BUT,这玩意移出集群后节点被重装系统了。。。数据完全丢失。我就再找他说聊斋,结果他搞了半天,来一句,我们尽力了,恢复不了数据,我们真的没办法,我当时心里真的骂娘。

最庆幸的是,这台服务器不是git服务器,要是的话我可能已经被IT界拉入给名单了吧

再后来腾讯云客服经理找到我,说我们正在抢救数据,一定时时给你情况。

BUT,一直没下文了。。。。

后来我心惊胆战的给CTO说了这个事,然后果断抛弃了腾讯云,暂时买服务器重新来搭集群和服务,记得那周,凌晨的空气都有很深的愤怒。

腾讯云给一家创业公司带来的灾难

2018-08-06,北京清博数控科技有限公司所属“前沿数控”平台

腾讯云到底安不安全?

为什么数据丢了不能恢复?

腾讯云,一个听起来就很牛逼的品牌。其云服务器声称99.9999999%的数据可靠性,搭载了云硬盘提供三副本存储策略,也就是说只要把数据放在腾讯云上,只有十亿分之一出现数据丢失的可能性,另外还对数据提供了3个备份,这简直太安全了!

万万没想到的是,如此安全的腾讯云却给一家创业公司带来了灾难!

在使用腾讯云服务器8个月后,我们放在云服务器上的数据全部丢失,腾讯云所谓的三备份数据也全部离奇丢失!

或许你认为丢失数据并不是什么稀罕事,就像电脑发生故障丢数据一样。这种理解没有错,所以我们偶尔会听到一些品牌的云服务器也会发生故障。但关键的不同之处是,云服务器一旦发生数据丢失,强大的备份机制、容灾机制就将起到保证数据安全的作用,给用户带来的损失只会局限于短时间的不能访问,而不是灾难性的毁灭。

但腾讯云这次带给我们的却是灾难性的毁灭!由于腾讯云云硬盘发生故障(这是腾讯云的解释),导致我们存放的数据全部丢失,并且不能恢复。这就无法做出解释了!腾讯云到底安不安全?为什么数据丢了不能恢复?难道那十亿分之一的不幸就降临在我们的身上?

我们是一家从微信公众号起家的创业公司,2014年注册了微信公众号“前沿数控技术”,精准定位于数控、模具、机械行业,随后我们的垂直行业精准粉丝突破了40万人。在2016年获得知名公司的投资从而加速了“前沿数控技术”的发展,公司业务也从微信公众号转型为打造行业的一站式平台,开发了包括网站、H5、小程序产品,并与全球高端装备制造业的德国、日本、瑞士、美国等一批龙头企业建立起深度合作。

为应对迅速增加的流量趋势以及安全可靠的需求,“前沿数控技术”选用了腾讯云服务器。而灾难就发生在2018年7月20日,我们近千万元级的平台数据全部丢失,包括经过长期推广导流积累起来的精准注册用户以及内容数据,这瞬间将一家创业公司摧毁….

经咨询IT行业专业人士,人家表示难以理解:“数据在腾讯云上因为硬盘挂了就丢失了,实在不可思议,即使一家公司使用自己的服务器,硬盘故障导致服务器宕机都能恢复数据,这个技术并不难,更何况云是有副本的,他们应该有容灾机制和数据完整性检验,以保证数据可恢复;即使全部损坏,只要硬盘没有物理毁灭也能恢复出数据….”

在事故发生后,腾讯云起初没有回避问题,承认他们会对此事故负责并声称这是他们此前从来没有发生过的事故,并且希望我们给他们一些时间来处理赔偿。

但实际上,腾讯云以大公司傲居的态度,真的让人无法接受。对一个“时间就是命根子”的互联网创业公司来说,在与腾讯云的交涉过程中他们给出的答复始终是“已向公司相关部门反馈,请耐心等待”。

直到事故发生的第14天,腾讯云才给出答复,这是一个足以让人崩溃的答复:补偿责任总额不会超过腾讯云公司就违约服务收取的服务费用总额,另外赠送一个腾讯云价值10万元的套餐包(不知道是什么东西)。随后,腾讯云好像感觉到这样的答复好像有什么不妥,很快将赔偿方案中的10万套餐包改为13.29万元现金,说这是他们争取的最大赔偿了。

让人难以相信,这居然是腾讯云给出的解决方案?口口声声说很重视,实际上却置创业公司的生死不顾!

那是我们花了两年多心血打造的平台!当所有内容数据全部丢失,在这种情况下需要花多大代价才能恢复运营?还能运营得起来吗?拿这13万能用来干什么?那是我们公司的命脉!

灾难已经发生,腾讯云公司给出的处理结果令人气愤,这就坚定了“前沿数控技术”平台去维权的决心,我们相信这个社会的正义感是存在的,法律是能保护财产不受损失的,就算是鸡蛋碰石头也要去碰….

我们不知道”前沿数控技术”是不是腾讯云十亿分之一几率的受损客户,我们需要腾讯云就事故给出一个明确说法,给出可以维持一家创业公司得以生存的赔偿,希望相关正义人士关注事件。

以下记录了此次事故发生的全过程:

7月20日(周五)

20:00左右,我司网站、小程序、H5突然出现打不开。

于是紧急安排程序员检查原因,发现无法登陆云服务器,重启也不行。

晚上23:00在腾讯云后台发起工单求助,腾讯云迅速给出了答复:北京三区部分云硬盘出现故障,正在紧急恢复中。

7月21日(周六)

焦急的等待中,早上,我司程序员没有看到腾讯云的回复信息。再次发起工单询问故障是否已经处理好,经过多条工单沟通没有得到明确的答复。

我们几乎是每隔半小时就拨打一次腾讯云的紧急服务电话催促结果,得到的答复是数据暂时没有办法恢复,专家团队正在紧急抢修中。

15:49腾讯云回复,让我们尝试恢复数据。我司程序员按其方法操作后,发现下载的数据已经损坏,无法使用。

此时,一种不祥的预感随之而来。上午我们担心的问题还是产品的停运会给用户带来不好的体验,给平台带来流量损失。但在腾讯云下午告知数据不能被恢复时,我们接近崩溃,此时最迫切的期望是能够恢复数据,平台短时间停运的那点损失就谈不上什么了。

随后不断拨打腾讯云投诉电话,要求无论如何,只要有一线希望就要恢复数据。腾讯云的答复是问题已经升级为优先级,已经上报给相关负责人。

7月22日(周日)

再着急也没有用,投诉电话打了一个又一个,客服人员的态度永远是标准化的答复 “请您耐心等待,问题已经反馈上去了”。

12:24,接到来自腾讯云深圳的电话,一位高小姐说她是处理投诉的负责人,由她专门来对接这个事故,她表达了由于腾讯云云硬盘发生的故障导致数据丢失,腾讯云已经尽到最大努力了,但数据的确找不回来了,想听取要求赔偿的意见。

我们再次表达,我们的需求不是索赔,简单介绍了数据的重要性,希望腾讯云尽全力把数据恢复回来。高小姐表示几乎没有希望了,她会给公司转达我们的意见,再做一次技术努力,答应在周一回复处理意见。

时间已经过去了2天,产品全部停运,我们是度日如年,当天晚上写了一封正式的投诉信盖公章通过腾讯云后台提交过去,迫切希望能够引起腾讯云高层的重视,因为这不是一次普通的数据事故,这关系到一家创业公司的生死。

7月23日(周一)

到了周一工作日,想必腾讯云应该会对紧急事故给出处理意见,但却没有!

直到下午13:40分,在腾讯云后台才收到一条应付式的答复:您好,您的投诉信和相关意见已收到,我们已再次升级反馈,如有进展会第一时间联系您,谢谢!

随后,我们回复了一条信息:如果周六、周日响应没有那么及时还可以理解,而昨晚的投诉,到今天的工作日,在下午13:40才给出一个形式的答复,这就不能理解。

20:56腾讯云高小姐来电,说明了数据100%找不回来了,表达公司已经高度重视这次事故,打电话的目的是想详细了解“前沿数控技术”此次数据丢失带来的损失。

整个通话过程将近一小时,我们坦诚向高小姐详细介绍了前沿数控平台的发展,此次数据丢失带来的严重后果。最后高小姐表示她会向公司领导详细报告,明天会给我们一个答复意见。

7月24日(周二)

又是等待回复!到了下午17:40还没有看到回复意见。又着急去后台询问进展。

19:16分腾讯云高小姐来电,表达了她已经在推动公司领导给出意见,希望我们再耐心等待一下。

7月25日(周三)

度日如年的过了一天,等待腾讯云的答复。

7月26日(周四)

15:00腾讯云高小姐来电,说她已经把我们反馈的情况报告上去了,公司老板已经知道了这件事,但要求我们将索赔的方案落实在书面上,通过邮件发给她。当时加了高小姐的微信。

当天晚上,我们迅速撰写了一份文件《前沿数控技术平台损失预估》,包括前沿数控技术产品线发展及相关情况、丢失的数据、给前沿数控技术平台带来的影响、平台损失价值评估。

此次事故,前沿数控技术平台丢失的数据包括PC网页、H5、小程序共用的核心数据。平台注册的精准用户数据全部丢失、数十万条用户帖子全部丢失、行业品牌库数据及所有录入的资讯全都丢失。因为是高度垂直的行业,获得流量是极其困难的事情,而这些数据是基于两年多的推广才逐步积累起来的。

从7月20日20:00起,平台已全部停运,活跃用户在网站停运的情况下逐渐流失,平台信任度将降至冰点,后续再恢复活跃度面临几何级的极大挑战,广告主在平台的广告投入已不能正常展示,面临退款赔偿及老客户丢失,公司融资计划也被中止。一家快速发展的创业公司瞬间回到“只能依靠微信公众号”的初期,企业陷入生存危机!

我们希望腾讯云正面问题评估损失,让我们恢复产品上线,然后加大力度推广看还有没有机会能将产品恢复活跃度。

7月27日(周五)

给高小姐发微信要邮箱,她给了我们一个163的邮箱。

随后我们通过邮件、微信给高小姐发送了文件《前沿数控技术平台损失预估》,高小姐答应当天回复进展。

到了晚上,高小姐告诉我们邮件已经转给公司相关部门人员了,因为事情比较特殊,他们需要一些时间来评估,需要我们耐心等待。

7月28日(周六)

12:20高小姐打电话过来,问关于文件《前沿数控技术平台损失预估》中评估的损失有没有可以提供的依据或事实证明,他们需要用来评估。我们的意见是,相关的依据与事实证明我们会在必要的时候提供,现在的关键是腾讯云的赔偿意见是什么,是否认同我们的方案。

高小姐又是让我们耐心等待,她会汇报意见。

7月29日(周日)

12:15高小姐打电话过来,说腾讯云的的大客户售后总经理、市场部骨干会安排在下周一下午来我们公司拜访沟通。高小姐拉了一个微信群。

我们当时瞬间感受到了腾讯云的诚意,感觉这次可能就比较靠谱了,于是安排约好了见面沟通。

7月30日(周一)

腾讯云的大客户售后总经理徐盎,还有两名腾讯云的随同人员一起过来我们公司。徐先生表达了歉意,说明他们这次拜访的目的是想怎么帮助我们迅速恢复已经停运的产品。

数据全都丢了,还能怎么快速恢复?

他们了解完情况后,认识到了此次数据带来的后果比较严重,产品没法迅速恢复运营,他们需要时间回去再商量,答应在周四给出具体赔偿金额的方案。

7月31日—8月1日(周二—周三)

等待腾讯云给出最终的赔偿方案。

8月2日(周四)

我们在微信群里催促徐先生今天什么时候给出赔偿方案,答复是下午发送给我们并电话沟通。

下午18:17接到腾讯云高小姐的来电,说明了他们的赔偿方案是:补偿责任总额不超过腾讯云公司就违约服务收取的服务费用总额,另外赠送一个腾讯云价值十万元的套餐包。

听到这样的答复,我们几乎瞬间崩溃!随后,腾讯云好像感觉到这样的答复好像有什么不妥,很快将赔偿方案中的10万套餐包改为13.29万元现金。

一个创业公司花二年多心血打造的平台就这样被腾讯云给毁了,在公司生与死的抉择关口,腾讯云公司口口声声说重视,他们会对事故负责,我们也期盼腾讯云能提供合理的赔偿资金来还创业公司的一线生机。而经过苦苦等待十多天,得到的结果却是少得可怜的赔偿…..

我们也坚定了维权的决心,我们相信这个社会的正义感是存在的,法律是能保护财产不受损失的,就算是鸡蛋碰石头也要去碰….

这里面也涉及到很多专业的问题,腾讯云声称的99.9999999%数据可靠性,搭载了云硬盘三副本存储策略,是否有夸大事实?腾讯云所谓的云服务器是否是真正意义上的“云”?腾讯云所谓的3备份是不是真实的?这些都值得行业去思考与探讨…

我们恳请相关正义人士、专业人士关注事件!

请腾讯云拿出负责任的回应!