bookmark_border区块链、嫦娥和菜市场

到底啥是区块链

不要觉得区块链很多高大上,把区块链理解成一个可以写字的笔记本就行。

这个笔记本放在谁都能拿到的地方,谁都能在上面写字。我们公司的书架上就有一本这样的笔记本,谁借书还书就在上面留个记录。

区块链是数字化的,而且有签名。意思就是每个人留记录的时候,会自动留个签名,说明是谁在什么时候留的记录。这样做的好处,就像在笔记本上打了格子,不至于随时间推移变得混乱。

另外,就是记录一旦留下,就不可以再修改了,谁都不可以,这点非常非常重要。

那要是写错了怎么办?再写一条记录就好,说明一下前面那条错了。就像在石头上刻字,刻上了就不能改了。

所以,如果有人想了解你,就可以看看你在笔记本上留下的所有记录,靠这个判断你是否靠谱。

感觉就是个高级征信系统,没错,差不多就是这样。

有个问题,就是留记录的时候的签名只是个 ID。换句话,虽然大家都能看到所有记录,但其实并不知道 ID 是谁。

每个 ID 的持有人都有一个密码,只要拥有这个密码,就可以去写字。

所以如果区块链如果真的成为征信系统,上面的人就得实名。

这样就没问题了,区块链上留下的,就是你的故事。

但现在大部分区块链都是匿名的,所以上面经常写满瞎话,反正没人知道真假。

如果是实名的话,你再说瞎话,可能就得再准备好 100 个瞎话来圆。

你在区块链上乱说话,就像嫦娥偷吃了不死药,是会被送去月宫的。

所以,自始至终都说真话才是最好的。

诚实是人类最宝贵的美德。

菜市场小助手

你到了一个菜市场,卖的东西琳琅满目,但鱼目混珠。怎么办?

人工智能加持的区块链,就是一个靠谱的小助手,你要买什么东西,靠不靠谱,问他就行了。

最重要的是,你就知道你东西买的值不值了。

这么说简单了吧。因为它足够诚实可信,所以才值得被学习,值得被聆听,就像巴菲特。

反过来,在区块链上说话需要勇敢,所以敢说话的可能不多,但话多的那些人,一定就更有价值。

还有,在区块链上说话,或者去查看区块链上的别人说的话,是不是都该付点钱?

bookmark_border播客录制、IT产业与SaaS服务

录了一期播客

有幸以嘉宾身份参与录制了一期播客节目,主要聊关于 IT 产业与相关投资的看法。第一次干这种事儿,深刻体会到做访谈类播客不容易。

虽然做了些准备,但我事先也只是把想聊的话题要点简单罗列了下(确实也不知道该咋准备),现场就想到啥说啥了,导致一开场就总感觉哪里不对劲儿,动不动尬住,话题深度和广度的控制都别扭。

聊天过程中信息量巨大,难以聚焦,折腾了一整个下午。虽然聊的很high,但是整理和剪辑就成了崩溃的事儿(感谢剪辑小哥,佩服)。

不管怎样最后还是上线了。感谢《投资实战派》节目和小宇宙,欢迎关注点赞评论~

开启了一个空白技能点,如果以后还有机会做别的节目就有经验了。

突然更崇拜偶像 Lex Fridman 了,在访谈类播客这件事情上,Lex 真是行业顶流,质量产量两手抓。

要做好任何一件事都不容易。

整理了一下聊天内容,由于回忆错位(当天节目后其实还聊了不少别的话题)和剪辑原因,与播客版本略有出入,姑且当个文字版总结。

信息技术产业的本质讨论

信息技术产业,也就是IT产业。从商业属性的角度来看,大家的主要认知还是对各行各业的提效和降本,然后通过规模效应赚钱。

我认为这没毛病,但还可以深挖。主要因为高效率低成本是个后验指标,它是技术发展带来的必然结果。但是,纵观历史上的技术普及历程,你就会发现新技术成本其实都不低,哪怕是早期的享受了到新技术带来巨大变革且受益的客户,他们付出的成本也不低。

不仅成本不低,可能初期还很高。被新技术初期高投入折腾死的 IT 公司或者客户也不少。反观成功的 IT 公司,往往有机会在新技术初期利用高溢价赚上一大笔,尤其是消费类公司。

虽然长期来看成本可能是降低了,但那已经太晚了,所以深挖下去,问题在于成本是如何被降低的?

我认为 IT 技术首先带来的是新的应用场景,让人能够做到以前做不到的事。在这些新的事物面前,是很难谈成本的。比如印刷术的诞生,带来了大规模知识传播的可能性;电子通信技术的诞生,带来了远距离信息沟通的可能性;又比如计算机的诞生,带来了自动计算的能力。

这些是变化的部分,但与此同时我们应该看到人类的需求中不变的部分,不外乎吃喝玩乐、衣食住行。IT 技术只是不断地在提供新的方式,满足过去同样的需求罢了。就好像不论是是甲骨文、印刷图书、还是电子书或者微信读书,提供的都是看书服务,只是方式变了。

再追问,为什么 IT 技术能不停的带来新的高效的做事方式呢?

因为人类利用信息的能力在不断提升,就好像从前我们只会用炸弹地毯式,但后来有了精确制导炸弹,效率就大大提高了。

我把这种能力概括为信息密度的提升。直观的看,可以用三方面能力来衡量信息密度的提升程度。

一是空间维度,我们同时能获取信息量更多了。比如视频和文字声音的区别;

二是时间维度,信息传播的更快也更广了。比如我们能通过微博获取更加及时的新闻,三是我们信息在传播过程中的准确度越来越高了,这是材质的变化。比如印刷术让复制信息的出错率更低了,数字技术代替模拟技术也是如此,区块链也是这方面的成功探索。

信息密度这个概念其实来自香农的信息熵,信息技术的本质是消除信息的不确定性。随着信息密度的不断提升,就是人类降低信息不确定性的能力的不断提升,这是整个信息技术产业发展最原始的驱动力。

接下来,随着信息密度的提升,存储、处理、使用信息的工具(我称其为信息容器)也在不断改进,所以我们就会看到各种新奇玩意儿被不断发明。

那么,人类究竟是如何做到不断提升信息密度的?

一是文字、音乐、图画等多模态信息的发展。多模态使得人们能够擅长使用”隐喻“来使用信息,也催生了各种不同的艺术形式。它是一种人类专属的工具,使用隐喻传递信息可能是人的大脑涌现出的最重要的区别于动物的功能。

二是电力通信技术的诞生。人们可以使用电力或者电磁波传递信息,第二次工业革命以后,人类IT技术能力开始起飞,信息传播速度可以是光速了。

三是电子计算机的诞生。图灵机定义了什么是”可计算“,信息可以被随意的压缩,解压缩,以及做其他各种转换。人们开始理解了数字化的威力,开始向信息密度的极限逼近。

半导体技术与集成电路发展让以上所有这些成了现实,这就成了过去不到 100 年的时间里 IT 技术发展的主线。

我相信未来还会沿着这条主线发展下去。

AI 带来了什么

下一个问题是 AI 究竟带来了什么。

从消费者体验上看,从 PC 到手机,从 3G 到 4G,人们访问互联网的方式经历了从固定到可移动,从文字、图片到了视频、直播的变化等等,体验变化巨大,但到 5G 时代,似乎这种进步的体验感小了。

插一句,在过去几十年中,我们的瓶颈一直出在半导体集成电路的计算能力上,所以我们还有所谓的”安迪比尔定律“——只要硬件能提供能力,软件就能榨干你。

过去几十年,人们一直在疯狂的尝试提升信息密度。但手机视频直播似乎是这种演进的终点——我们似乎再也找不到比手机视频更加高密度的信息传播形式了,软件似乎没法榨干硬件了。

这件事我是认可的,也让我一度很焦虑,IT产业是不是发展到头了?

但是,这两年 AI 的爆发,才让我豁然开朗。原来世界上还存在一种信息密度超过视频的东西,叫做大模型

姑且用大模型这个词,它不光是语言大模型,也指代其他不同类型的大模型,或者指代未来的 AGI 能力。虽然人们已经研究了几十年 AI,但大模型表现出的 AIGC 的能力还是颠覆了我的认知。

就拿录制播客这件事情举例:播客,其本身是一种很好的信息传播渠道。早年间只有电台,遇到喜欢的节目,得用磁带之类的设备录制下来,非常麻烦(可能年龄大点的朋友小时候还有用磁带录电台流行音乐的经历)。后来,苹果推出 iPod 和 Podcast,让声音传播这件事更加方便和自然了,移动互联网的加持更让其如虎添翼。再后来,视频来了,比起纯声音,B 站舞蹈区 Up 主可能更加吸引人^_^。播客变成视频形式后,效果也会更好,比如 Lex Fridman 同时也是一个Youtuber,他现在的播客其实都有同步的视频。

AIGC 来了以后,格局一下子就打开了。

未来可能是这样的:我们录制播客内容,包括音频、视频、文字稿,都会被大模型学习后,打包成一个知识库被分发。不管你是听众、读者、观众姥爷都可以享用,因为AIGC技术的加持,你想看文字,就生成文字给你看,你想听音频,就把录音放给你听,你想看视频,就把视频丢给你看,你甚至还可以自由选择5分钟、50分钟、甚至500分钟的扩展版本。

你也可以把这期节目当成一个机器人,向他提点问题,定向获取相关信息。这件事儿很有用,别忘了如果有 100 个节目,你提同样的问题,你可能会获得不同的答案。

不论如何想象未来,只要理解 AIGC 带来的知识密度大于视频,我可以放心了,以目前的进度,未来几十年 IT 产业还到不了顶。

我们可以再把思路打开一点,如果播客可以这么做,我们为什么不把各种各样的信息都这么做一遍呢?没错,这正是现今各大公司在研究的事情。

人类的知识密度还会再上升一个数量级。

对我个人而言,我想如果可以打造出一个 AI 巴菲特,以后在做投研的时候,就可以随时征求一下”他“的意见了。

投资 SaaS 公司的应该关注什么

再把目光放到眼前,下一个问题是在这样的浪潮下,如何看待IT公司的发展以及如何投资,尤其是现在流行的 SaaS 公司?

先理解 SaaS 公司是什么,广义上看,IT产业链包括从互联网服务到软件到硬件再到半导体这一系列环节,我们主要还是互联网和软件服务部分。这其中除了大型互联网公司外,大部分软件公司可能都会以 SaaS 形式存在,现在流行的 SaaS 订阅模式,只是在互联网作为分发渠道后,卖产品的一种形式而已。

这些事情背后,IT 公司的商业属性不外乎服务外包或者是卖产品

软件最大的特征,就是可以以几乎可以忽略不计的成本复制。如果你是一个 IT 公司老总,你最希望的事情是写一些代码,然后能够服务很多很多人,这样就可以写一遍代码赚很多很多遍钱。

这个思路就像消费领域的大单品模式,一个产品如果能卖出足够多的量,由于边际制造成本低,公司就能获取大量的利润。

但问题在于,一家 IT 公司真正运作起来,要做到很低的边际成本其实并非那么容易的。这是因为 IT 公司要想办法教会客户学习使用软件,然后改变他们的工作方式或者生活方式,这样才算完成了客户服务。

这个教育客户的过程,说的不好听一点,就是“教客户做事”,对于很多IT公司来说,就必须解决一个问题:客户凭什么听你的?对于 toB 的业务,这种成本尤其明显,最终客户利益关系复杂,尤其是当客户是行业巨头,而你只是一家小 IT 公司,你想教育那些行业大佬们改变工作方式,简直是天方夜谭。

toC 的业务也是这样,这就是为什么互联网公司经常会花大量的营销费用培养用户习惯,花钱教育用户使用自己的产品和服务。

但是,总是有成功的 IT 公司做到这一点的,如果你没有做到,说明你输了。

因此,一家好的 IT 公司必须始终和客户待在一块儿,深刻的了解客户的工作方式,并对新技术和自己的产品如何改变客户的工作方式,通过更高的知识密度提升工作效率非常重要。作为一家公司,这一点的重要性,远高于先进的技术。

如果你去看 IT 公司的首页,这也是很多 IT 公司喜欢标榜自己拥有一大堆 500 强大客户的原因。不过,如果你能够深入了解这些公司的最终客户——很可能只是 500 强客户里的某一个小部门——你可能会发现他们对客户的服务还是非常不完善的。

还是用现在非常火爆的 AI 赛道举例子,作为投资公司,我们曾经尝试过使用包括ChatGPT 在内的各种 AI 工具来阅读公司财报,也尝试过把公司基础信息喂给一些 AI 机器人,然后改善我们的投研流程,但效果不尽如人意。比如如何把格式千奇百怪的PDF或者网页文字、表格喂给 AI,就是件很麻烦的事情。尤其是当这些数据每天蜂拥而至,你有没有趁手的工具的时候。即使作为一个比较专业的 IT 技术人员,现在的工具也很难满足我们改进日常投研的流程。

在真实的商业环境下,有大量这样让人不爽的细节问题,需要 IT 公司去解决、实践。

更难的是,虽然每家公司的工作方式各不相同,但作为 IT 公司尤其是 SaaS 类公司,不但要解决好这些问题,还要考虑一定程度的标准化,以便于服务更多数量客户。其实 IT 公司才是最懂行业的人。

对客户核心需求的深刻理解,是否能真正解决客户的问题,以及是否能提供相对标准化的产品,是这些 SaaS 类公司和核心竞争力。

当然在有的行业上标准化是很困难的事情,但哪怕是定制开发类的 IT 公司,如果能将核心技术标准化,在控制成本的基础上做好服务,也是能有好的机会持续赚钱的。

另外,对于 toB 类的 SaaS 公司而言,客户使用产品的驱动力更多来自于效率提升和以此带来的成本降低,而这一点随着时间的推移是必然会发生的。也就是说,相比起 toC 的应用而言,toB 类的应用可能会有更长的生命周期——渗透率随着技术进步和成本降低逐步提升,IT 公司可以持续获得客户从而获得相对长期的成长。

国内 SaaS 公司现状问题

以上说的主要还是针对 toB 类 SaaS 公司,其实国内也有一些 toC 的 SaaS工具类公司,但数量并不多,主要原因可能是我们国家的互联网服务太过发达了。

可能是因为国内过去十几年的 IT 投资集中于互联网公司,也可能是因为我们的工程师更喜欢去大厂上班而不是创业,不去纠结具体的原因,事实上如果你仔细观察美团、拼多多、阿里巴巴等公司,你会发现他们其实服务了非常多的中小商家,做了很多国外SaaS类公司做的事情。所以,其实我们的SaaS类服务水平,并不比海外差,只不过我们没有那么多做大做强的独立 SaaS 类公司吧。

在 toB 的 SaaS 类公司方面,国内的SaaS公司可能主要受限于他们的客户。首先毕竟我们积累少,起步晚,美国的 IT 公司早的可能从 20 世纪六七十年代就开始发展了,更重要的是他们的客户接受 IT 公司服务也有大几十年了,那些客户踩过的坑更多,再加上高人工成本,他们也更容易接受标准化的 IT 服务

反观国内的大客户,尤其是政府客户、大国企等等,他们是国内SaaS类 IT 公司的主要客户群,但他们真正数字化,其实也就是过去十几二十年的事情,外加我们较低的人工成本,导致客户更爱定制各种需求。我们常开玩笑的一件事情是,我们想把一个产品卖给某大国企,要做的第一件事情是替换掉启动界面,然后把产品名字给改了。

另一方面,我们国家的大客户的实力与发展阶段,也与海外的 500 强客户有很大差距。我们毕竟是发展中国家,我们的大企业们的发展很容易随着宏观经济波动,在全球范围内有较大影响力的也不多。因此,依赖这些客户发展的国内 SaaS 公司,可能很容易跟随客户的发展情况,出现周期性的波动。一些实力强大的 SaaS 公司可能会尝试往海外发展,但很快就会遇到与海外的 SaaS 公司竞争的情形,在海外大客户面前,我们不论在对客户需求的理解还是有差距的。

举个典型的例子就是广联达,伴随着国内房地产客户的发展,它专注于 BIM 和造价软件,已经做的非常成功,但随着国内地产行业的转冷,它也很快会面临增长放缓的问题。同时,在二级市场估值上,就会呈现出明显的周期性。

不过,增长放缓并不一定是坏事,我是相信SaaS 类公司是能够做到小而美的。SaaS 类公司,如果能在一个恰当的规模上,专注的服务好自己的客户,长期赚取利润,然后配置好自己的资产别乱花钱,照顾好股东的利益,就还是很有投资价值的。

其实如果深入挖掘一些在港股上市的公司,还是有一些这样的例子的,另外,国内也有一些没有上市的 SaaS 类或者 IT 公司,依靠着手里相对固定的一些客户,也做得非常好。

关于投资 IT 类公司策略的讨论

对我来说,最重要事情还是关注那些未来三五年,或者十年期间一定会发生的事情,相信技术会持续的进步,信息密度回不断地提升。

现在来看,IT 领域最确定的事情,一是 AI 应用的发展,二是卫星通讯技术的落地。目前看起来,它们都已经看到了技术上实现的可能性,在过去一两年,它们的能力都已经被展现出来了。

对于一项好技术,0 到 1 已经实现,1 到 10 的过程就是一定会发生的。纵观 IT 产业过去几十年的发展,不论是 PC、手机、还是短视频,都经历过类似的事情。在从 0 到 1 的阶段,大家在一阵喧嚣过后,很快会觉得它们是花哨的新鲜玩意儿,然而正如阿玛拉定律所揭示的那样,人们总是高估一项科技所带来的短期效益,又低估它的长期影响。

不同于周期性质的行业景气和题材炒作,这种技术进步带来的行业爆发,往往是不可逆的过程,一旦接受的新的工作或者生活方式,就再也回不去了。

这种不可逆的现象是一个很好的指标,因此,我很爱做的一件事情,就是向身边的朋友安利最新出来的黑科技。很多情况下,大家的接受度并不会那么高,但是,偶尔有那么几次,身边的人很快就接受并且开始主动传播,那么这可能就是需要开始敏感的时候了

我很喜欢乔布斯的一句话,苹果的工作是建立尖端技术和构成大多数人的“其他人”之间的桥梁,正如《跨越鸿沟》一书中提到的那样,在早期用户市场和大众市场之间存在一条鸿沟,一旦有人开始修这座桥,可能它还不坚固,也不好用,但你确实能够意识到,未来会有很多人将跨越过去,你就可以出手了。

估值是对IT类公司投资的一个难题,题材操作总是很快的反映出市场上过于乐观的预期,作为二级市场的投资人,我们只有接受它。

首先我们还是需要去计算估值,在市场非常火热的时候,千万不要被“市梦率”所蒙骗,即使估值很高,我们也有必要估算出这个估值对应的运营状况,有多少用户,贡献多少利润的情况下,这个估值才会合理。

在清楚市场估值背后代表的经营状况的情况下,我们可以尝试去评估 5 年或者 10 年后,新技术普及的程度,想象一下未来的生活或者工作会是什么样子的。如果你回忆一下十多年前刚刚开始有移动互联网以及手机游戏、手机电商、外卖这样的应用,再想想腾讯、阿里巴巴、美团这十年来的发展,你可能会对预测十年后技术对生活的改变更加有感觉。

总之,作为二级市场投资人,不去赌从 0 到 1 的技术进步,规避短期题材炒作,在确定长期技术替代的趋势,且短期技术遇冷的时间里开始投资并且长期持有,是我喜欢的投资策略。

这项工作对于 toB 的业务来说会更加难,但如果你本身就在某个细分行业工作,你可能就会觉察到某些变化,那这其中可能也会有更好的投资机会。除了那些耳熟能详的大 IT公司以外,细分行业的也会存在一些这样的机会。

最后一个话题,是 IT 行业跟踪的信息源问题。

首先还是阅读公司财报、季度电话会议以及重要人物的访谈,这与其他行业没什么区别。除此之外,大型 IT 公司比如苹果、微软、谷歌每年都会有各类发布会和开发者大会,这些会议内容都是可以让我们快速了解最新技术趋势的极好的材料,尤其注意到一些偏技术类的 Session 或者技术 Demo,你可以去看看那些技术大牛们都在玩些什么——不用关心技术细节——只需要看看他们在玩什么就可以了,对于科技 geeker 来说,这是非常有乐趣的事情。

当然还有各类科技类 UP 主或者 Youtuber,比如 Lex Fridman。

另外,如果还能自己写几行代码亲自跑跑看,弄脏自己的手,像玩玩具那样去玩一下就更好了,在 AIGC 逐渐发达的今天,这并不困难。

总之,一切的努力都是为了抓住那些未来十年十倍的大机会。

bookmark_border《科学:无尽的前沿》读后感

1944 年末,虽然二战还没有结束,但不论是在欧洲战场还是在东方的太平洋战场,德军和日军实力都已遭到重创。战争胜利曙光乍现,时任总统罗斯福已经开始计划战后国家战略的规划问题。

罗斯福总统给当时担任白宫科学研究与发展办公室负责人的范内瓦·布什发了一封信函,希望能筹备一份关于美国科学政策的报告。

范内瓦·布什是工程师出身,绝大部分时间都在麻省理工大学工作,他在一战和二战期间担任了美国国家研究委员的顾问,直接领导了美国军方包括原子弹、军用雷达在内一系列黑科技的研发。

罗斯福已经意识到,虽然在战争期间美国的科学研究方面的水平突飞猛进,但这大都关于军事。由于战争,许多研究者其实都中断了之前的研究,而且当时在美国的许多科学家都来自欧洲或其他海外国家,现在战争要结束了,美国必须要在战后科学研究方面的政策上做好充分的准备。

罗斯福总统主要关注的方向有四个:一是让实现科技军转民以及解决就业问题,二是如何推进医学和相关领域的研究,三是处理好公共研究和私人研究组织之间的关系,四是对科学研究人才进行规划。

第二年七月,范内瓦·布什回复的报告在二战结束前夕发表,就是这份《科学:无尽的前言》。

这份报告为美国二战后发展指明了方向。在这份报告规划的框架下,美国这几十年来取得了远超二战结束时候的成功,尤其是在科技领域摆脱了对欧洲的依赖,称霸全球。

在这份报告中,布什首先肯定了科学研究的地位。他认为科学研究会带来新知识,那是所有实际知识的源头活水。在和平时期,科学研究能给人们带来健康、带来更丰富的商品更多就业岗位等等,“一个依靠别人来获得基础科学知识的国家……其工业进步都将步履缓慢,在世界贸易中的竞争力也会非常弱”。

科学研究的本质,是人类对这个世界上知识的求知欲,没有任何人能够精确预测未来会发生什么。

有意思的地方是,微软中国 CTO 韦青在评论中提到,战前的布什博士在军事技术上至少有两点判断错误,一是他大大低估了导弹技术的前景(也让钱学森有了回到中国的机会),二是他在战时拒绝给电子计算机项目拨款,因为他不相信电子计算机能很快的被制造出来。

不过工程师出身的布什博士非常清楚的知道人在科学研究面前的局限性,他不遗余力的坚持科学研究的独立性和科学家的自由。这份坚持非常不容易,毕竟科学研究只属于小部分人,大众很难理解政府将他们的税钱撒给一群没有目的不知道在干什么的疯子们。

战争的经验让布什意识到,科技的奇迹依赖基础研究,然而基础研究无法考虑实用性的目的。即使这与大众的期望冲突,他还是在报告中写道:“科学进步本质上依赖的是科学家无需考虑实际目的的自由基础研究。”

布什认为这种研究注定只属于一小撮聪明的科学家,他们主要存在于各大专院校中。

布什拒绝让政府领导科学研究机构,希望成立一个国家研究基金会,独立于政府,制定和推广科学研究的相关具体政策。政府的职责,是要成为大众和那帮精英科学家之间的桥梁。

布什的另一项设计,是专门设立独立于军事机构的军事科学研究的文职机构,把军事科学研究和士兵训练分开。

另外,布什实施了军事订货计划,让政府采购大学、产业实验室等机构的研究成果,而不是创建政府的实验室,这是一套行之有效的机制,催生了美国“军事-产业-大学”的铁三角联动体系

布什还认为科学研究成功要尽可能公开化,特别强调了科学研究成果的出版与和合作,专门成立部门帮助出版和交流科学研究的成果,以及研究成果的全球交流。

事实上,直到报告发表5年后的1950年,布什设想的国家科学基金会才正式成立。政府被设计成了一个从事科普活动的角色,政府要投入并鼓励科学教育,培养科学研究人才,也要教导大众采用科学的思维方式,还要想办法采取措施让大众有能力领取弹药——享受科学家的研究成果。

另一个话题,是对科学本身范围的定义,除自然科学、医学外,社会科学是否算得上科学,在这一点上布什异常坚定的认为:“以牺牲社会科学、人文科学和其他对国民福祉至关重要的研究为代价来发展自然科学和医学研究,这是一种愚蠢的想法”。

但是说归说,实际上布什还是将社会科学排除在外,理由是他认为社会科学在实践中与政治和政府联系太过紧密。

从这点可以看出来,排除政府对科学家的影响,是布什博士放在第一位的。

这种完全自由的研究环境吸引了来自全世界的优秀科学家们。尤其是是在二战之后整个欧洲满目疮痍的情况下,为美国之后的科学研究工作奠定了宝贵的人才基础,可能这才是这项政策的最大意义所在。

这个框架也并不完美。如果熟悉苹果公司历史的话,一定会对加州的施乐帕洛阿尔托研究中心(PARC)有印象,Macintosh 的设计灵感就来自那里,激光打印机、办公室局域网、激光CD光盘等等一系列技术也都来自于这个实验室。这个著名的实验室,研究方向是“信息架构”,它正是政府资助的实验室之一。

实际上不论是乔布斯还是盖茨,对施乐实验室的评价都偏负面——一群很厉害的科学家,浪费了很多钱,搞出了一大堆炫酷但没什么用的东西。

这很有代表性,凡是政府出钱做事儿,就多少会效率低下。政府注重基础研究,自然就挤压了应用研究方面的资源。

在报告提出的 1945 年,科技水平并不发达,大多数应用类发明都还很原始,枯燥等待着基础科学的突破。但到了1960年代后,半导体和集成电路被发明出来之后,应用类的研究重要性就凸显出来。应用科学的研究开发,重要性丝毫不亚于基础研究。

在这样的背景下,应用科学的研究就只能依赖于那些私营企业,这类研究往往更加商业化,与市场需求紧密结合,与基础科学研究脱节。

政府资助的基础科学研究无法满足市场要求,私人资本只好自己来,但私人资本又离不开政府订单的帮助。

一个例子是 NASA 花了很多年,才得以让私有企业参与类似国际空间站补给任务的投标。2009 年,虽然马斯克创立的 SpaceX 的火箭发射效率远超过原先政府资助的那些火箭发射供应商,但 SpaceX 原先根本无法获得政府订单,后来还是在经过诉讼美国空军后,才得到了火箭发射的订单。

这种体制性问题制约了美国基础科学研究的能力,到 2015 年,美国历史上第一次,私营部门为基础研究提供的资金已经超过了政府。甚至在 5G 时代,美国在一些领域的研发能力已经开始落后中国(然后就开始了贸易战和科技战这样的手段)。

这种脱节也引起了美国学者的注意,1990年代,普林斯顿大学的唐纳德·斯托克斯发表了《基础科学与技术创新:巴斯德象限》,提出强调应用驱动的基础科学研究。2016年,哈佛大学教授文卡特希·那拉亚那穆提出版了《发明与发现:反思无止境的前沿》,提出了发明-发现循环模型,直接对原来的框架进行了批评。

在信息化高度发达的今天,科技公司也已经在美国经济有了极高的地位,知识工作已经成为了主流,而且私人资本无比壮大,基础科学研究似乎的确更加有机会与产业结合,主动掌握自己的方向而不是完全随机的“瞎猫碰死耗子”。

科学家需要自由,但同时政府需要方向。

2020年,美国出台了《无尽的前沿法案》,政府对科学研究的支持中心从之前的基础研究和科学教育转向了支持关键技术领域的研发和支持区域技术中心的建设。政府希望更加定向去补贴特定的研究方向,这也是2022年美国《芯片与科学法案》的出台以及对针对中国开展“科技战”的主要背景。

对科学知识的探索,需要自由的灵魂,这似乎是一件浪漫的事,但科技与军事息息相关,竞争总是刺刀见红的。

大众和科学家之间,总是隔着一层玻璃,但科学家最终也是普通人,而其他普通人也需要享受科学家的研究成果。

没有完美的方案,只有当下能运行的最好方案。

bookmark_borderVision Pro 的突破

苹果 MR 眼镜终于来了!

苹果 WWDC 2023 发布会过去几天了,聊几个我感兴趣的地方。

1. 4K Micro-OLED 屏幕

Vision Pro 搭载了单眼分辨率 4K 的 Micro-OLED 屏幕,据称这两块屏幕本身的成本就达到 700 美元。这块屏幕很小,与其说它是块屏幕,不如说它是一块“显示芯片”,事实上它的确在制作工艺上使用了 CMOS 技术,并由台积电代工生产。

PPD 是制约目前市面上各种 VR 眼镜普及的要素,我连续使用手上的 PICO 4 连续使用时间很难超过 30 分钟,低分辨、满眼纱窗搞的眼睛疼是主要原因,毕竟 PPD 只有大约 16。Vision Pro 使用的这块高分辨率屏幕 PPD 据称能达到 40 以上,实际体验效果远好于现在的各路 VR 眼镜。

如果对比传统显示器,现在的 VR 眼镜提供的分辨率大约是 1024×768 级别的,VIsion Pro 估计能达到 1080p 水平,这对用户体验来说是质的变化,它意味着在 VR 状态下连续使用阅读打字成为可能

不过,如果要达到人眼无法分辨的分辨率,也就是 Retina 的水平,这还是不够的。未来苹果还会有动力将分辨率进一步提升到单眼 6k 甚至更高,这可能也就是未来三五年会发生的事儿。

2. 再见,控制器

早在 PICO 3 和 Oculus 时代,最让我吐槽的可能就是那个控制器,不过到 PICO 4 和 Oculus 2 时代,控制器的精准程度已经让我可以轻松掌控了。但是,苹果直接抛弃了实体控制器,改用手势与眼球追踪进行操控。

手势与眼球追踪都不是新技术,但产品化应用到实际 VR 眼镜中还是第一次。记得微软早在十多年前的 Kinect 时代就探索了各种新的人机交互方式,但大多停留在实验室里或者仅仅能应用在 XBox 这样的固定摆放位置的家用游戏机上。

这是一个巨大的突破,随着技术日益成熟,它很可能定义了未来几十年全新的人机交互方式。想象一下等到 10 或 20年以后,VR 眼镜就像现在的平板电脑一样便宜和普及,不论你走到会议室还是商场,都可以随手拿起一个 VR 眼镜,在虚拟世界中体验或者消费

到那时,生活中的所有平面——不论是桌面、墙面、天花板,甚至大楼的外立面,都会变成用来人机交互的“屏幕”。

3. 真的你?假的你?Persona!

当人一旦戴起 VR 眼镜,人脸尤其是人眼就与外界隔绝了。因此,我们早已习以为常的视频通话就成了难题,你没有办法使用手机或者电脑的前置摄像头与对方交互。

不论是 Pico 还是 Oculus 都用了卡通头像的解决方案,给人的感觉就好像在数字世界中,人就应该以卡通形象出现。这种妥协极大的限制了 VR 设备的使用场景——不论是严肃的商业环境,还是交流感情的社交活动,都不是游戏,人希望与活人打交道,而不是一个猫熊脑袋。

苹果使用包括机器学习在内的一系列技术,用 AI 生成的方式,为每个人生成虚拟世界中的“真实”人像。由于“恐怖谷效应”的存在,这件事儿一直是很难做到的,但一旦做到,对用户体验来说就是质的突破了。

Persona 的技术很有意思。信息不够,AI 来凑,它一旦成熟,它绝对不只会被用在 Vision Pro 中。在看过苹果的演示后,我这几天有时候会莫名的不由自主的盯着身边其他人看,然后想象虚拟的对方会长什么样子。这感觉很微妙,也许不久的未来,每个人就都可以轻松制作属于自己的的“虚拟人”了。

我也希望我自己的虚拟分身能够尽快出生。

4. 3D 摄像

这也不是新技术了,3D 电影大家已经见怪不怪看了很多年。

现在的突破在于,一旦这些 3D 内容有了相对廉价的体验设备,那么制作 3D 内容的成本就会变得很低,这很可能会颠覆整个内容制作产业。

想象一下,在大约 5 年前仅仅因为大家手机的屏幕尺寸变大了几英寸,就催生了整个短视频制作的产业,甚至改变了整个互联网的用户流量入口格局。

目前制作 VR 内容的成本还是极高的,苹果现在能让我们用 Vision Pro 甚至更便宜的设备制作 VR 内容。每个人就都可以轻松拍摄令人震撼的 3D 照片拍摄 3D 视频,那 VR 内容它将成为继文字、图片、视频、短视频后的下一种信息传播媒介。

它有机会再一次定义我们所在的互联网世界。

5. 与真实设备交互

在苹果的演示中,如果你需要戴着 Vision Pro 使用实体键盘或者是 Macbook,看向你需要使用的设备即可。

我曾尝试过使用 Pico 4 办公,整个过程让人崩溃。通过蓝牙连接我的实体键盘过程中,我得一次次戴上摘下头盔,或者在虚拟世界和穿透显示之间切换。最折腾人的地方在一旦我进入虚拟世界,打开办公软件,我就只能以摸黑的方式敲键盘,体验相当糟糕。

设备连接并不是新功能,从 Apple Watch、AirPods 开始直到 AIrTag,相关的设备快速连接技术已经很成熟了(也得感谢华为鸿蒙系统对行业的贡献),但 Vision Pro 的高清摄像头提供的穿透显示,让体验变得无比自然。

可以想象未来除了键盘与 MacBook,我们也会有机会为其他许多设备开发与 VR 头盔交互的功能,这在技术上并不困难,我猜苹果晚些时候将上线的 visionOS SDK 就会有相关的 API 可供使用。

瓶颈?

毕竟这还是第一代产品,有一些事情让我失望。

首先是对于我这样的高度近视散光患者,可能不得不为了使用 Vision Pro 再去佩戴麻烦的隐形眼镜了。

其次是续航,第一代 Vision Pro 的续航听起来非常一般,重量也不轻,这需要时间去迭代,想想第一代 iPad 吧。

还有摄像头的能力,比如目前设备在暗光下显示的效果可能会大打折扣,这可能需要下一代专为暗光优化的 CIS 芯片的加持。

不过,每一份失望都是对未来的期望。不论如何,在这个经济低迷的时代,Vision Pro 的突破让我们看到了些许未来的样子。

可能这就是世界在 1984 年看到 Macintosh 发布的感觉。

bookmark_borderAI 应用落地的两个关键问题

最近参与了一些关于 AI 应用落地话题的交流,我提出了两个问题,到目前为止,都还没好的答案。

我的第一个问题是,未来 AI 的信息容器是什么?

在过去的 100 多年中,信息技术领域的用户体验经历了几次重要的变化,人机交互界面从最初的按钮与指示灯,到随后的字符终端,再到图形显示界面,直到最近十来年的多模态交互(语音、触控等)。

每一个时代都有属于自己的”信息容器“。这是一种以特定格式储存信息的媒介,它配合上相应的输入/输出设备,提供特定时代人类与机器打交道的解决方案。这些信息容器包括 IBM 的穿孔纸带,字符终端时期的磁盘与文件(微软 DOS 操作系统名称的字面意义)、GUI 时代的格式文档(例如 doc、xls、pdf)、互联网时代的 HTML 等等。

在 AI 时代,有了强大的自然语言能力、图形生成能力,我们将如何与 AI 之间传递信息,或者说,人与人之间未来将如何传递信息?

最近 AI 辅助写作已经不稀奇了,我也深度使用了一些工具,但很快就发生了神奇的事情——写作者大量使用 AI 辅助写作,用几句话生成一大篇文章,阅读者与此同时也开始大量使用 AI 辅助总结阅读,把文章缩回成两三句话。

哪里不对劲。

不对劲的原因,正是适应 AI 时代的信息容器缺乏。实际上我们习惯使用了自然语言这种媒介来交换信息,在信息密度更大的 AI 面前,自然语言在效率上毫无战斗力,反而成了帮倒忙的玩意儿。

我在想象一种新的媒介的出现:当我接受别人的资料时,我不想看到长篇大论,简洁的总结就足够了,如果我需要更多的信息,AI 可以再实时生成给我。

打孔纸带催生了 IBM,字符终端造就出了 PC 产业,图形终端下的 Office 三件套让微软成为了垄断巨头,触控与移动终端则让苹果重回辉煌。

那问题来了,定义 AI 信息容器的下一个巨头会是谁?

我的第二个问题是:AI 的“WOW时刻”在什么时候怎样到来?

新技术的落地,都是通过新的技术手段提升效率,替换传统工作、学习、以及生活方式的过程。

但人们对新技术的接纳来源于比较。

大多数人可能都经历过从智能手机是个大玩具,到生活离不开智能手机的过程,但绝大部分人,包括我在内,还没有体会到“离开 AI 就没法过日子”的感觉

这种转变的时刻,被我称为“WOW时刻”。某个行业的“WOW时刻”一出现,就再也回不去了!如果说好奇心是驱动消费用户购买新技术产品的第一波浪潮的话,那么 “WOW时刻”才是真正深刻改变世界的第二增长曲线。

回想一下你是什么时候开始离不开 PC,什么时候开始离不开手机的?正是那些你发现在 PC 上写文章效率远远超过在稿纸上爬格子,或者在手机上刷小视频的娱乐效率,远远高于守在电视机前看新闻联播后面的黄金档电视剧,又或者是在移动支付时自然而然掏出手机的时刻。

要想出现“WOW时刻”,除了新技术本身,还必须等各种各样的应用场景、解决方案、生态圈等等陆续问世,这些都是要人们花费数年甚至数十年才能摸索出来的。

所以,“WOW时刻”的到来往往要比人们所想的要晚不少,想想看,即使图形界面的 PC 早在 1990 年代初就出现了,直到 2010 年代我们还会在很多场景,比如超市收银机看到几十年前的字符界面应用程序。

我始终相信 AI 的“WOW时刻”虽迟但到。我对此充满了期待,我也非常好奇,这个时刻将会以怎样的方式,以怎样的方式来临

两个问题,都还没有答案。且行且思,静观其变。

bookmark_border大人,时代变了,人最重要的技能是聊天!

聊天改变世界

编程何以能成为一种现代职业?

因为人类有欲望,程序本质上是一种让机器满足特定人群在特定环境下的欲望的方式。程序通过指挥机器输出字符,画面,声音等操作,来满足人的特定欲望。过去一两百年来,整个信息产业的发展,无非是这个过程的不断演进。

在我过去十多年的职业经历中,我学到一个令我印象极其深刻的道理。一个优秀的IT公司,就好像一台设计精良的生物计算机,你灌输一句话需求,它就应该自动自发的完成一系列流程,包括需求分析、应用开发、代码编写、直到交付测试给用户使用。这台机器的用户界面可能就是个微信群,你要做的只是往群里写一些需求,再掏些钱,然后等上一段时间,你就会发现世界被改变了。

聊天改变世界,一个好CEO最重要的技能是聊天。

逆天的ChatGPT插件

经过几年的酝酿,最近我们每天都在体验着人类的技术爆发,你根本不知道一觉醒来,就会又有什么神奇的新东西发布了。ChatGPT 已经拥有了十分强大的编程能力,我一直好奇这样的怪兽开放API时,究竟会是什么样的形式。上周,OpenAI公布了 ChatGPT 插件开发文档(https://platform.openai.com/docs/plugins/introduction),它完全没让我失望,我切实体会到了来自未来的编程方式。不!不是来自未来,它已经来了!

不妨从人类的编程方式历史开始说起。编程是人类与计算机打交道的方式。理解人类编程方式的进化,可以从程序载体,也就是程序长什么样,以及人类编写程序的方式两个方面来观察。

机器语言时代

最早的时候,人类使用一种机械式的分析机,它只能进行简单的数学计算。Ada Lovelace(1815-1852)在1843年发表了一篇文章,发明了一种使用打孔卡片输入程序控制计算机进行逻辑运算的方法。这时候的程序其实只是一堆数字。

这被认为是最早的编程方式。这已经是180年前了!

(巴贝齐分析机 来源:https://zh.wikipedia.org/wiki/File:Analytical_Engine_(2290032530).jpg)
(打孔卡片 来源:https://upload.wikimedia.org/wikipedia/commons/4/4c/Blue-punch-card-front-horiz.png)

汇编语言与高级语言时代

在电子计算机发明后,计算机的体系结构逐渐稳定下来。1950年代,人们开始设计一些助记词指令代替数字来与计算机打交道,汇编语言就这样被发明了。汇编语言能够将人类可读的指令转换为机器可读的指令,助记词的加入让编程语言首次实现了“人类可读“,从此出现了”代码“这种东西。

与此同时,显示屏、键盘成了程序员编写程序使用的工具,程序员的工作从搬动开关、给卡片打孔这类体力劳动中解放了出来。

这已经是大概70年前的事了。

(一段ChatGPT生成的汇编语言代码)

随着计算机的普及,计算机的用途逐渐从科学计算扩展到商用领域。1957年,IBM的程序员们为IBM 704计算机发明了叫做FORTRAN(Formula Translation)的高级语言,它简化了汇编语言的指令,高级语言更加接近人类的自然语言

(一段ChatGPT生成的FORTRAN语言代码)

有意思的是,那时候人们并不怎么信任计算机的计算结果。据说在IBM 704计算机交付使用时,现场依然配备了数百名计算员复查确认计算机计算结果,直到大约十年后,计算工作才被完全交给计算机(参考:https://zh.wikipedia.org/wiki/IBM_704)

随后科技突飞猛进,摩尔定律一直延续了几十年,集成电路持续进化,计算机的处理能力发生了翻天覆地的变化。

可视化编程

1984年,乔布斯发布了划时代的产品 Macintosh,开创了 GUI 的时代。GUI 的出现为高级语言带来了很多不一样的东西,人类除了打字外,还可以用鼠标来操作计算机了。从 GUI 诞生一开始,人们就开始琢磨怎么用图形化的方式编写程序代码,也叫可视化编程(Visual Programming)

早在1988年,乔布斯还在折腾自己的 NeXT 电脑公司时,一个重要产品就是用于构建图形应用程序的 IB (Interface Builder)。微软也紧随其后,在1991年推出了帮助人们拖拖鼠标就能创建图形应用程序的 Visual Basic。这些可视化编程工具一直在持续进化发展,直到今天依然在广泛使用。

这大概是30多年前的事儿。

 (Interface Builder for NeXTSTEP 来源: https://arstechnica.com/gadgets/2012/12/the-legacy-of-next-lives-on-in-os-x/)
(Visual Basic 1.0 编程工具 来源:https://winworldpc.com/screenshot/40c3942c-c281-2230-11c3-a4e284a2c3a5)

在可视化编程的世界里,程序的载体是一些可视化图形,程序员可以通过鼠标或者触摸设备操作他们。这听起来很酷,可现实是残酷的,人们很快发现,可视化编程存在许多难以解决的硬伤。比如 GUI 在复杂系统面前的效率远不如字符高效,而且难以优化程序性能;比如可视化编程开发工具自身开发难度就很高,很难跟上各种迅速进化的高级语言发展,往往一代图形化开发工具发布,语言已经进化到下一代了;又比如图形界面的程序代码相比简单的字符代码来说,更难以长期维护管理以及多人协作等等。

因此,完全的可视化编程始终没有实现,只有在某些特别的场景,比如儿童编程教育或者工业软件设计下,可视化编程才得到小范围的应用。但人们对在更大领域范围使用可视化编程的探索一直没有停止,近年来各类低代码编辑器依然层出不穷。

(儿童编程软件Scratch 1.4 与 Scratch 2,来源:https://bubble.io/blog/visual-programming/)

不过,可视化编程作为一种辅助手段一直存在,而且日益成熟。它大大提升了程序员们的工作效率。现在几乎所有主流平台都有基于 GUI 的可视化编程环境。

丰富的现代编程语言

高级语言自身也不断进化,朝着更加擅长完成特定任务的方向演进。比如早在1970年代Xerox PARC做图形用户界面的早期研究时,就提出了 MVC (Model-View-Controller) 模式。它将应用程序分为了负责实现数据存取与算法的 Model 部分,负责绘制图形界面的 View 部分,以及与负责处理用户请求和业务逻辑的 Controller 部分。又比如互联网和云计算的发展使得应用程序不再只运行在一台计算机上,今天一个应用程序完成一次操作,可能会调用互联网上许多设备协同工作。

这个过程中,一条简简单单的数据,被转换成各种各样形式存在着。从用户的视角看来,数据可以是PDF文件中的一行文字,可以是Excel文件中的一个表格行,也可以是海报图片中的一小块图片。如果从程序员的视角来看就更加复杂,它可以是一段JSON,也可以是一张JPG图像;它可以是Java中的一个类实例,也可以是数据库中的一行数据;它可以是HTML中的包含的几个数字,也可以是路由器中的几个数据包。

这就是为什么1960年代科学家仅仅用4K的内存就可以控制登月飞船,可今天人们还在抱怨电脑运行的太慢。

为了描述和处理如此复杂的数据,就出现了许多特别适合某一场景的程序语言,比如HTML这样的内容标记描述语言,GraphQL这样的专用接口查询语言,或者YAML这样的数据描述语言。这种划分让高级语言开始向专一功能化的方式发展,高级语言之间设计分工越来越明确。

一些语言比如JavaScript中还包含了大量动态特性,今天的程序员们,常常在各种各样花里胡哨的编程语言中玩得不亦乐乎,甚至今天各厂商都爱定义一套自己编程语言才满足,让人颇有一种开发能力过剩的感觉。

程序员们很大一部分的折腾,都是在试图驯服 GUI 这头怪兽。人们通过 GUI 操作计算机,程序将人们的操作(鼠标移动点击或者手指触摸)翻译成计算机指令,计算机再将处理结果转换回显示屏幕上某些像素的颜色变化,人眼观察到这些变化,接受消息,满足需求。

这大概是近10年发生的事儿。

 (iPhone应用程序开发环境,来源:https://developer.apple.com/xcode/)

自然语言——程序语言终结者!

各种各样的高级语言,配合上眼花缭乱的图形化辅助工具,人们已经习以为常,直到 ChatGPT 出现在大家眼前。扯了那么多,我们来看看 ChatGPT 的插件系统提供了一个怎样的编程平台。

最精彩的部分在建立 ChatGPT 与你的服务API交互的过程,它以AI的方式包装了传统的应用程序。这部分过程,就好像用汇编语言的助记词指令代替人类无法看懂的机器码数字一样神奇。

我们可以忽略掉其他基础性的工作,包括完成用户验证以及创建清单文件的事情,作为开发者,你需要理解这些事情,但这些事情都是标准化的,其实很容易可以由AI帮助完成。

拿官方文档中的简单TODO插件的例子来说,你需要为ChatGPT撰写一些说明,像下面这样(是的,你也不需要用英文,中文也可):

生成一份OpenAPI定义的YAML代码,用于编写ChatGPT插件,包含下面的信息描述:一个ChatGPT插件,允许用户使用TODO列表,并可以管理该列表。如果你不知道用户的用户名,在向插件进行查询之前请先询问用户。否则,使用用户名“global”。它只有一个端口,服务器接口在https://gpt.bobyuxinyang.com路径为/todos接口描述如下获取:获得用户TODO列表发送:增加一条TODO项目,接受一个参数,content参数描述todo的内容,返回todo的id删除:从列表中删除一条TODO项目,接受一个参数,id参数描述todo的id

另外,后端服务需要以JSON格式返回一些数据,比如下面这些。

{"todos:"["买点东西","遛狗","写写代码"]}

就是这些了!

其实最重要的事仅仅是编写那几段描述,剩下的事情都可以交给AI,然后比如下次当用户提要求”我要往TODO列表增加一个项目,内容是看书“,ChatGPT就会自动调用你的API处理剩下的问题。

我们要的不是AI辅助编程,我们要的是“自然语言原生编程”,就好像过去几年流行的云原生概念与云计算的区别一样。

从程序员的视角,你只需要写下完成任务的思路,剩下就不用做了。什么高级语言,都能自动生成,什么 GUI,不需要的!我们只需要关注需求,一切都关于数据!我们真的需要 GUI 吗?我们真的需要高级语言吗?

(当然还是需要的,我们现在还需要用他们来创造AI)

不多说了,不理解的地方去问 ChatGPT就好。

给我们的启示

在现实世界里,会耍 Excel,会写 Python,会用什么 SPSS 之类的复杂专业软件工具一直是所谓专业人士的必备技能。现在我们突然发现,过去这些所谓的专业人士,本质上都是在做信息中介的工作。

未来人们 最重要的事情是会聊天,通过聊天就可以解决实际问题,改变世界。另外,第二重要的事情,是 拥有第一手数据。之所以是第二重要,是因为第一手数据也可以通过聊天得来^_^。

最近经常有人问,是不是AI来了我们以后都不要编程了。必然不是,而是现在编程的门槛变得更低了,千万不要把写代码这件事和编程划等号,当聊天也可以是编程的时候,你就必须思考怎么才能“好好聊天”。你需要学习逻辑、数据结构、架构设计等等一系列知识,才可以应付未来的聊天场景,不然就会变得毫无竞争力,这是另外一个话题了。

当我们拥有了导航软件,大部分人受益其中,但自身辨认方向的能力可能也有所退化。不过,这并非意味着辨认方向的能力不再重要,反而对于专业人士,它变得更加重要。

编程工作不会消失,程序员不会被替代,而且编程效率的提升会使需求成百上千倍的激发出来,市场空间无限巨大,产业互联网的故事就要实现了。

2023.3

bookmark_border为什么说判断力是一种架构能力,以及为什么AI缺乏判断力

这一篇谈谈AI的局限性。

上一篇文章提到,判断力是人类在AI面前的优势之一,判断力也是一种架构能力,这个话题其实很有意思,值得展开谈谈。

判断力的来源

试想一下当我们听到一条新闻消息,我们会如何判断它的真假?

虽然通过消息来源可以区分出一大部分不靠谱的消息,但仅仅根据信息来源判断是明显不靠谱的,即使是所谓的官方消息,也免不了造假的可能性。在那些真正重要的事情上面,我们可以信任谁呢?除了自己以外,我们谁也不能信任。

判断力是我们依靠自己而非他人来判断信息真伪的能力。交叉验证可能是最容易想到的办法,当你的同事慌张的告诉你你家里着火了,你第一反应可能会给家人打个电话,或者赶紧亲自跑回家去看一眼。这些动作都是在搜集更多信息,以确认这个坏消息是不是真的发生了。在短时间内,如果多个消息源都显示出证明某个事实的证据,我们就能更加确信这件事情是真的。

交叉验证的理念,就是所谓调查研究。当我们想证明什么,就会想尽办法去搜集更多与这件事情相关的信息,从而为交叉验证提供素材。假若交叉验证都指向同一结果,那么自然没什么问题。但如果交叉验证的过程中各个事实指向的并非同一结果,甚至指向完全相反的事实,这时候问题就变得复杂了,就好像两块手表永远无法告诉你确切的时间。

在做判断时,人们常常犯的错误,是摒弃那些与预想不同的信息,仅仅保留那些直觉希望看到的信息。这种选择性接受信息的行为往往能让人的出一些令人匪夷所思的结论,就好像虽然明明窗外艳阳高照,但如果手上的两块手表都告诉你现在是深夜,仍然会有不少人选择相信手表,可能还会联想到时区或者是其他什么问题。凭直觉做出这种荒谬的结论,那活该被扣上“不理性”的帽子。

直觉是不可靠的,更理性的思考方式,是使用“逻辑”这个强大的工具,将我们获得的信息进行处理之后再下结论。比如手表1是一块机械表,手表2是一块能够通过互联网同步时钟的电子表,且手表2当前还处于有电的正常工作状况,我们也许还会去检查手表2的互联网连接是否正常,如果都一切正常,那么手表1因为各种原因走时出错的可能性就会大得多,我们就会自然更加相信手表2给出的信息。人脑天生有强大的逻辑能力,当我们从两块手表获得不同的时间时,我们的大脑会调用更多的信息来辅助判断。

因此,要判断一件事情是否为真,除了判断消息来源外,还有另外两个要素,一是逻辑推导能力,二是提供辅助信息。消息来源其实就是辅助信息的一种。

信息的拆分与合并

先来看逻辑推导这件事儿,基本逻辑运算很容易,无非是“与”、“或”、“非”三种,逻辑运算本身并不是什么问题。困难的地方在于如何将信息其拆分或者合并成用于计算的素材,也就是信息处理的过程。

还是上面的例子,假设我们获得了两条相互矛盾的信息,“手表1报时3:01am”,“手表2报时2:59am”。这两条信息并不能直接进行逻辑运算。或者说,光凭这两条信息,我们无法推导出任何结论。你可以试试把这两条信息输入到GPT中,让AI也来烧烧脑。

之所以我们能够继续推导而AI很难做到,就是因为我们会自然的对信息进行加工。首先,我们会自然的从提取一些信息合并进来,比如“手表1报时3:01am”就成了“一块在床头柜里放了1个月的机械表,它是5年前买的,在刚刚我拿起来看的时候显示时间是3:00am,另外它有黑色的表带,外壳有点裂纹”等等等等。在真正做判断时,我们大脑使用的信息远不止这一句话,大脑的信息储备放在那儿,所有信息储备都是做这个判断的辅助信息,它们会根据某种规则被提取,然后合并到原始信息中。这个例子里,我们甚至还会联想到购买那块机械表的那次旅程,机械表的品牌、价格等等。当然,不只人类是这样,AI其实也是这么做的。

合并进来大量信息后,下一步要做的就是对信息进行拆分,目的是让信息变得可以比较,能够被用于逻辑推导。我们经常把这部分说成“把书看薄”的过程,信息拆分是复杂的,因为信息是几乎可以被无限拆分和重组,这种拆分有无数种可能性,究竟拆分成什么样的粒度才可以用来进行逻辑推导呢?没有一个公式,也没有标准答案。

还是手表的例子,再经过一系列信息处理后。我大概获得这么两信息:“手表1是一块一个月没戴过的机械表”,“手表2是一块功能完好且连接着互联网的Apple Watch”。这样就好判断了,很明显手表2是准的更容易让人相信。既然如此,那就很容易推导出“手表2报时2:59am”这句话是真的的可能性就更大。

判断力的核心是架构能力

在刚刚提到的这个过程中,我只提到拆分信息的方法没有公式和标准答案,但如果继续追问究竟该怎么拆分信息呢,我其实没有给出过程,只能姑且理解成靠直觉。

还是这个例子,假设另一个人经过信息处理后也得到了两条信息“手表1是一块看很酷很新的机械表”,“手表2是一块成色很差的电子表”,那么他就很容易推断出手表1是准的,这就显然出错了。但是,我们再考虑一种情况,如果他得出的信息是“手表1是一块看很旧很破的机械表”,“手表2是一块成色还行的电子表”,然后判断手表2是准的,那他也可能“蒙对”。这有点像在完成中学试卷里的选择题,不管这个人是否能蒙对答案,他的过程看起来都是全错的。

一旦有新的问题出现在面前,比如又出现了“手表3报时3:02am”这样一条信息,同样的,我们仍然会组合与拆分出更新的信息来做判断,重要的是,前面的信息拆分方式可能并不适合新的判断场景,我们需要寻找新的信息处理方式。

这种处理信息,生成对信息进行拆分和重组方案的能力就是架构能力。从这个例子我们可以看出,其实架构能力才是区分判断力高下的核心要素。在这个判断手表准确与否的问题上,即使能够判断对一两次,如果用于判断真假的架构就是错误的,那么未来迟早会犯下重大的错误。架构是一种形而上的方法论,它起到指导人脑思考方向的作用,架构能力很重要,判断力的核心其实是架构能力。

AI是否也有架构能力呢?当然有,机器学习的训练过程,实质上正是为AI提供了一套信息处理的架构,使得AI能够按照某种对信息重组和拆分的方式处理信息。随着AI模型日益庞大,AI的能力也与日俱增,尤其是ChatGPT这类产品的出现,使得AI在语言文字信息这种特定模态的信息处理架构日益完善。

人脑在架构能力上的优势

老实说,在很多情况下,AI在信息处理上都能领先人脑。其中AI最大的优势之一便是它拥有庞大的数据库,面对同样的问题,AI就是一个博览群书、识古通今的天才,能够快速的从历史数据库中搜索出相应的辅助信息来生成答案。在一些创意类的工作中,AI甚至能通过对海量案例的排列组合,创新出人脑无法想象的内容,让人叹为观止。

回到判断力的问题上,AI就不如人类了,这其中最重要的原因恐怕还是数据的缺失。

AI是缺失多模态信息的。我们常说AI没有情绪而人类是有情绪的,我其实持保留意见。情绪是人类一种根据感受自然迸发出来的东西,情绪是一种会影响决策的上下文。我相信假若给AI足够的信息量,AI也完全有机会模拟出情绪,不过,问题就在于AI很难获得足够的信息量。

对于“手表1报时3:01am”这短短的一句话,人类处理消息时使用的信息,除了文字与大脑中的记忆(这些AI都有)以外,还包括眼睛看到的画面,耳朵听到的声音,闻到的味道,同时还包括在做判断那段时间里心脏的跳动、胃里翻腾的食物等等五脏六腑的感受。人会感受整个环境,文字仅仅是环境中的一小点内容而已。人的感受包括视觉、嗅觉、触觉可能还有痛觉,这些感受来自于人身上的每一寸皮肤甚至每一个细胞,要将这所有的感受数字化给AI是太不可能的。

这些人类对现实的感知能力,是AI不具备的。虽然AI也可以开始利用各类传感器尝试感受世界,但技术能力的限制使得AI距离人类感受世界的能力还差好多好多个数量级。

AI的自动驾驶能力是个很好的例子,从算法与计算能力上来说,AI实现完全自动驾驶似乎并非不能实现。但感知能力限制了AI能力的发挥,不仅仅是传感器,就算人们已经制造出能超过人眼能力的高清摄像头与雷达,数据传输能力也无法满足需求,AI难以在短时间内高效的处理如此大量的图像与雷达数据并做出决策。这也导致时至今日,人类依然在汽车自动驾驶这件事上具有明显优势。

更重要的是,由于感知能力的缺失,AI也很难在没有人类帮助的情况下实现自我学习进化。人类之所以能够形成判断“好”或者“坏”的直觉,很大程度上是因为人类从小就在不停的犯错中学习,当人类做出了一些事情并取得来自世界的负面反馈时,人就会把某些事情分类在“错误的事”那一列。这种负面反馈并非只是老师试卷上的红叉或者人工标注里的框框,它是一种来自包括耳朵听到的、眼睛看到的,身体感受到一切综合而成的东西。

对人类来说,这种来自现实的反馈并非一时产生,而是日积月累了几十年,伴随着人的一生。在潜移默化中,大脑学习成了现在的样子,这一切综合起来,构成了每一个人对信息的架构能力与判断力。AI在重新组合和拆分信息的过程中,虽然有庞大的数据库,但AI这些真正的感知信息的能力是极其有限的,这是AI力所不能及的地方。

我们得到的启示

说了那么多,总结一下我们从中可以得到的启示。

首先还是得认识到AI的长处,姑且把AI当成一个被灌满了专业知识老师傅,大事小事都可以问问AI,权当头脑风暴。尤其是在发散性创造性的工作中,我们应该习惯于AI总能给我们提供一些灵感,毕竟AI的数据库来自于全世界大脑的积累。

然后我们必须始终谨慎的对待每一条AI给我们的反馈,在接下来AI的时代中,对信息的判断力对每个人将显得如此重要,缺乏判断力的人会很迷茫和痛苦。

为了提升自己的判断力,我们要特别感谢造物主给了人类感知的能力,正是这些感知能力给了我们无与伦比的判断力。因此,如果AI真的能够帮我们完成大部分思考工作,我们对于我们获得的信息,更应该主动去寻求来自真实世界的反馈在简单的文字、图像、甚至视频的内容储备上,我们不可能比得过AI,但我们在大自然身历其境的感受中,在与别人一场场真实的谈话中,我们感受到的信息量远超AI所学习到的那些干巴巴的内容。AI可以负责帮我们思考,我们则可以把更多的时间花在与这个世界打交道上,这是人类最擅长也最有价值的地方。

有了这些感知能力,我们得以高效判断一件事情是好的还是坏的,判断是否要停止做某些事情或者鼓励做某些事情,我们可以判断一幅照片是否是美的,或者去判断一个公司未来是否有美好的前景然后买它的股票。在这些能力上,虽然AI能给出不错的建议,但最终的判断能力远不如人。

台积电老董事长张忠谋在聊到什么是一个好的管理者时曾经提到,“聆听是最基本的东西。我看一个人说话,从来不记笔记,就想他为什么讲这几个字,他的动机是什么,他要我做什么。”这种优秀CEO察言观色的能力,AI就是极难做到的。

如果AI真的会替代掉一些职业,律师,医生这些与人打交道的职业才是最不容易被取代的,在这些职业中,察言观色的能力才是核心竞争力,而不仅仅是脑袋中的那些法律或者医学知识。

2023.3

bookmark_border期待一个售卖罐装知识的未来

在原神中,罐装知识是一种非常有价值的资源,可以被用来提供虚空系统的知识服务。

虚空从世界树中读取知识,人们在耳朵上佩戴虚空终端,虚空系统会根据访问者的身份、阅历等信息,推送相应的知识。在虚空系统的帮助下,人不需要主动思考,就可以获得任何需要的知识。

罐装知识的来源,是学者的大脑,学者们将自己的知识罐装起来,然后通过虚空系统提供给其他人使用。不过,由于教令院禁止私下买卖罐装知识,所以在黑市上出售罐装知识是非法的。

用现在的话来说,世界树提供了云存储服务,虚空系统提供云计算服务,虚空终端就是云端设备,罐装知识就像是储存了有价值信息的U盘。

罐装知识是原神中一个非常有趣的设定,它展示了一种先进的知识传播体系,同时也反映了知识对于一个社会的重要性。

信息唾手可得

现实中,书本就是最古老的“罐装知识”,图书馆就是古老的世界树与虚空系统。图书馆是存储知识的场所,就像虚空系统,人们去图书馆翻书获取知识。

科技发展使各种承担知识传播功能的新设备代替了书本。虚空系统从广播到电视,进化到到互联网、无线互联网,终端也从收音机到电视机进化到个人电脑再到手机甚至各类可穿戴设备。人类社会中知识传播的效率在科技的加持下不断提高。

这种效率的提高体现在两个方面,一是信息复制与传输的成本越来越低,二是新媒介中信息密度不断提高。

要复制古老的书本,得依靠印刷技术,相比之下,读取和复制电脑硬盘中的数据成本就低得多。近几十年,连书籍的排版都已彻底电子化。到今天,不仅仅是电子书,我们在视频网站点播高清视频也习以为常了。人们能够以极低的成本且有选择性的接受需要的知识。

另一方面,同样给你5分钟时间,看5分钟文字,听5分钟音频,与看5分钟高清视频比起来,你接受到的信息量差了几个数量级。这就是信息密度不要小看信息密度,它为人类获取和使用信息提供了更多可能性,也提供了更多不经意间创意涌现的机会。

这些进步的结果就是,人们不论是工作、学习、生活、娱乐的效率都成倍的提高了。想象一下在20年前我们还需要每周在固定的时间等在电视机前看想看的动画片,或者要在周末去楼下的漫画店借一本最新出版的漫画,这些生活习惯都已经不复存在了,现在在手机上点几下就可以解决问题。

时至今日,“信息唾手可得”已经几乎实现。

学习曲线

不过,学习是个始终没有被技术解决的问题。

现在的你无论通过什么手段获取到文字、图像或是视频,你仍然需要花时间学习消化。与原神中虚空终端不同,学习过程还没有办法被替代,信息并不能直接被灌输到你的大脑里。然而,信息只有能够被人类消化,然后用于解决特定的问题,才可真正称为知识。从这个意义上说,现实中的我们只能接收到是“罐装信息”而非“罐装知识”。

在解决一些现实问题面前尤其如此。一个简单的例子,比如你想手工做个蛋糕,你已经可以轻松的搜索翻阅相关的食谱,这可能包括相关的书籍、网站、在线视频视频课程等,然后你仍然需要花时间学习其中的内容,一边学习你可能还需要继续搜寻更多的信息以解决实践中遇到的更多问题,比如家里的烤箱使用方法等等。这个学习的过程以及学习所耗费的时间都无法避免。

经济学中常会提到学习曲线的概念。在日复一日的学习中,人们能逐步形成经验,将这些信息真正变成自己的知识,在这些积累下来的经验的帮助下,人们将获得更高的劳动效率。

学习曲线之所以重要,一个重要原因是它与时间相关,时间是积累学习曲线的必要条件。每个人每天都有24小时,也只有24小时,这24小时无法租借,流逝的时间也无法再找回。时间成本对很多事情来说都无法忽略,也正因如此,对个体或企业来说,学习曲线的优势也往往是极具壁垒的竞争优势之一。

那么,有什么办法能够让人们的学习曲线变得更加平滑一些吗?有,就是AI。

在过去几年里,使用AI进行人脸识别或是文字翻译工作已经不是新鲜事,在那些工作中,AI承担了大量节省人们体力的工作,但并没有太好的解决人们提升学习效率,让学习曲线变得更平滑的问题。而近两年AI的发展,也许可以更好的解决这个问题了。

如何解决呢?如果去深入观察人类学习技能的过程,我们会发现我们的学习时间会耗费在几个方面上。

肌肉记忆

首先是对肌肉记忆的训练。这尤其明显的体现在乐器、体育运动等技能的学习上,除此之外例如钳工等重视操作的工作也需要依赖肌肉记忆。

在对肌肉记忆的训练中,除了勤学苦练之外,最重要的恐怕是评估过程。当你完成一个动作,你最需要的是能够第一时间收到反馈,纠正可能错误,只有在动作正确的前提下,勤学苦练才是有意义的。

这种反馈和纠正,只能靠有经验的人来教。我们常说如果有个老师傅“手把手”的教你,你就会学的又快又好,就是这个道理,有经验又肯带人的老师傅是多么值钱。不过老师傅的时间也是很贵的,更何况还有些老师傅根本就不愿意教徒弟,真正有能力又肯花时间带你的老师傅本身都是非常稀缺的,大多数人根本就没有得到让老师傅手把手教学的机会。

现在的AI可以一定程度上代替老师傅的存在,只要给AI喂上足够的专业数据,AI就能够你在练习专业任务的过程中帮助进行评估。这个过程,想想现在已经不稀奇的英文学习软件就可以理解,随着ChatGPT之类技术的发展,AI的应用场景会很快超越语言学习,可以想象未来在论文写作、图表编制、或是绘画、音乐等等工作上,AI都有机会成为非常棒的评估老师傅。

除此之外,随着AR/VR技术的发展,AI还可以与这些技术结合使用,为人们带来更加生动、直观、真实,也更加身临其境训练体验。

快速搜索能力

另一个消耗大量时间的事儿是对知识快速搜索能力的训练。一个优秀的医生,在手术台上能够对各种状况应对自如,一个优秀的工程师,面对复杂的问题能够信手拈来,游刃有余。这些技能都需要学习足够的知识作为基石,那些专业知识固化在了专家们的脑子里,当面对问题是,相应的知识就会条件反射一样的蹦出来。

读万卷书,行万里路,常见的学习方式就是大量阅读,大量积累。要形成这样的熟练度,达到唯手熟尔的境界,需要人们大量的时间的日积月累。不过不可否认的是,在真正面对解决特定问题的场景时,我们其实只用得上众多知识储备里的很小一部分,但问题就在于如果没有巨大的知识储备作为后盾,我们也很难快速地定位到真正需要的那些知识在哪儿。想象一下我们在学生时期的学习方法,我们会按照教科书的顺序从前到后学习并储备知识,然后在考试时在大脑中搜寻所需要的知识点。

然而实际生产中,在多学科的复杂知识面前,这种学习方法是冗余和低效的。在对专业知识要求并非那么高的场景里,一些简单的知识就足以解决问题了。在这个问题上,AI的搜索能力越来越强大和智能化,为人们的学习和工作带来更多的便利和效率,AI就像考试时的作弊小抄,有机会为我们扮演智能学习助手的角色。事实上,从个人电脑诞生的那天开始,人们就在设想这样的智能助手的出现,但可惜的是,过去电脑能做的大多是根据关键词搜索这样的事情,从使用体验来说,过去的小助手更像个人工智障而不是人工智能。

现在的AI助手能通过不断学习和调整算法,并以自然语言的方式与人类交互,这远比之前通过关键词从数据库中检索知识的方式要高效与实用。就好像点播电视剧的场景中,过去你需要告诉电脑要看哪部电视剧的第几集,现在在AI的加持下,你可以从问题出发,比如只提供一些碎片化的信息,AI就会帮你找到相应的剧集并推送给你。

这或许帮人们省去了一大块积累学习知识的时间,人们可以持续增加对AI的依赖程度,并将其应用到实际工作中。

处理意外状况

在学习的过程中,学习如何处理意外状况也是需要耗费大量时间积累的事儿。大多数时候,我们对知识的学习以归纳与总结规律为主,但真正具有极大价值的往往是如何处理特殊的例外情况,“年轻人知道规则,但老人知道意外”。

有经验的专家往往身经百战,关键时刻的某个意外发生时的决策往往正是决定事情成败的关键。积累关于意外状况的经验是很困难的,它们内容又多且又过于小众,从一般教科书很难学到所有,只有依靠时间的积累不断总结。

即使有人在不断的总结案例,学习这些案例也会花费掉你大量的时间,而这一切的努力都是为了在未来某一次实践中,脑子里蹦出某个意外案例,影响你的决策,规避某些风险。

AI在处理意外状况上有很大的潜力和优势。由于它可以通过处理大量的数据来学习和理解各种情况和场景,因此可以识别和处理那些常规规则之外的情况。只要训练有素,AI了解的例外情况也许比最厉害的专家还要多,这些例外情况的数据会非常有价值。

想想用自动驾驶技术开车的场景,虽然我们无法在所有问题上依赖AI,但在某些场景下,AI一定会比我们自己做的更好。

未来的AI罐装知识

GPT-4已经开放了Fine-tuning API(https://platform.openai.com/docs/guides/fine-tuning)这样的接口,使得开发者可以训练自己的模型,然后将其嫁接到ChatGPT的大模型上,对模型进行“微调”,并向用户提供服务。这个API给人很大的想象空间,你可以将一些知识或者案例打包成一个预训练模型,然后喂给ChatGPT,看起来你已经有能力拥有一个属于自己的罐装知识了。

虽然现在技术还处于早期阶段,但已经可以想象到,未来每个人都有机会把自己的知识通过模型训练的方式固化下来,使用者就可以通过AI调用的方式“使用”你的知识。未来也许会出现一个类似App Store的罐装知识商店,出售特定专业定位的AI机器人,就好像下载特定用途的APP一样。你想获得学习特定领域的知识,只需要到这个商店中去买一个训练好的AI机器人就可以开箱即用了。

人类记忆有限,我们很难保持对大量信息和知识的完整和准确的掌握。我们可以将各种各样的知识和经验进行有效地提取、压缩和封装,使得这些知识能够方便地被其他人使用。这种方法不仅可以提高人们的学习效率,也可以使得知识的传播更加高效和精确。AI罐装知识是一种工具,帮助人类更好地组织和管理知识库。

这种对知识的管理方式,会远比书本、音频、视频更加高效。其高效之处正体现在它对人学习效率的提升上。AI加持的罐装知识,就像一个有着多年行业经验又不知疲倦的老师傅,耐心的手把手的教你完成特定的任务。

每个行业里都有一大批非常宝贵的老师傅,在未来,AI灌装知识很可能部分替代老师傅们,这一旦真的发生,会改变很多行业的现状。

另外,要实现这一点,AI还需要有更加低成本的被训练的方式,ChatGPT已经在这个方向上取得了不错的进展,你在使用ChatGPT跟AI聊天的过程,其实已经在帮忙训练AI了。AI就像一个偷师学艺的徒弟,不知不觉中就提取了你大脑里的知识,然后装在罐子里,自己成了老师傅

我们可以做些什么

1980年代的个人电脑广告中曾经出现过一个场景,一个家庭主妇在厨房里烹饪,厨房的角落里出现一台笨重的老式个人电脑,单色的显示器上显示出一行行绿色的文字,家庭主妇就在这样的电脑上查询菜谱,快乐的做饭。放到今天,这种场景看起来太过于搞笑,显然个人电脑并不是这么用的。不过更可笑的是,几十年后的今天我们偶尔还能看到类似的广告,只不过笨重的个人电脑换成了平板电脑或是人工智能音箱。

我很难想象出未来所谓的AI罐装知识普及以后,人类社会会出现什么样的场景,但我始终相信该发生的一定会发生,我们只需要做好准备迎接它们。

对我们自己来说,最重要的事情或许是要特别注重对判断力的训练。在未来的AI平台上,我们一定会看到不同的AI机器人对同一件事情做出不同的指导,对同一个问题给出不同的答案,就好像有好几个不同的老师傅同时教你学习一样。这时候最重要的能力就成了判断该信谁,判断谁对谁错的能力,这是种架构能力。我们需要始终保持警惕,始终用批判的眼光看待AI给我们提供的信息,不论AI再强大,它都不是可靠的,真正可靠的只有自己。你最终要为自己负责任,一切的最终决定权还是在自己的手里。

我们也不得不开始思考应该如何利用AI工具提升自身学习的能力,尤其要思考什么才是正确的学习方法。死记硬背不在有优势,提问题比回答问题变得更重要。我们得学会怎么寻找问题,怎么设立目标,怎么不断的问题追问中学习进步,AI越强大,这种真正的学习能力就显得更加珍贵。

AI只是一个加速器,如果学习方法得当,AI绝对是事半功倍的利器,但如果学习方法有问题,那AI只会起到反作用。

也许“罐装知识”在未来也会成为一个巨大的产业,可以确定的是它几乎能够和现在的许多行业结合,并改变行业格局。但我无法预测在其中会有怎样的商业模式出现,甚至也无法确定未来AI与人交互的形态会如何。不过这并不是什么大问题,事情总会慢慢的浮出水面,该来得总会来。在这段等待的时间里,我们只要持续思考能以何种形式加入这个浪潮中去,能如何向AI提供足够的有价值的数据,又如何利用AI为我们自己以及更多的客户提供价值就足够了。

从生产角度来看,如果AI能够降低某些工作的学习成本,那一定可以省下一大笔雇佣专业人才的费用,转而雇佣一批会使用AI工具的人才。我们要不断的思考如何让AI为我们服务器,在未来,使用AI工具会和使用电脑或者手机一样重要,这不论对企业老板还是对每个员工都一样。

bookmark_border【旧文重发】未来十年会发生什么

这篇文章写于2018年夏天,当时创造101的小姐姐们大红大紫,记得我边看杨超越哭边写下了这些内容。将近4年过去了,最近AI大火,又想起这篇。翻出来看,不去评判当时预测的对错,更多的是感叹是这个世界在短短几年间居然发生了如此多的变化。

过去十年发生了什么?

互联网已经从桌面,转移到了手机。而且,流量没那么贵了。

云计算,从概念变成了现实。文字,音频,视频,乃至AR,都有了相应的规模极大的云服务,每个服务厮杀都非常激烈。

电视,报纸,杂志这些玩意儿躺枪,基本上死了。

互联网跟钱(支付)深入结合在了一起,给互联网行业带来了巨大营收,也包括一大堆浑水摸鱼的骗子公司。人已经离不开互联网了。

那未来十年会发生什么?

实时云计算

这是云计算的延伸。

随着网络随处可达,网速越来越快,“服务器”,“客户端”的架构渐渐模糊,数据可以冗余的存在于每个设备中,并彼此日同步。“同步”的概念将无处不在,数据到底存在云里还是存在本机,这不再是一个问题。

举iPad点餐的故事作为例子:十年前是客人对着纸质菜单说话,服务员用电脑点菜;现在是客人用手机扫描餐桌上的二维码,直接用手机点餐;十年后,也许是客人走到餐桌,客人的手表,眼镜,耳机,或者桌面上的屏幕上直接出现菜单,客人可以直接点餐下单支付。

关键是,全程不需要用手机。

WIFI将被淘汰。手机将被淘汰,手机会走下坡路,在手机之后,智能硬件会有巨大的发展。

长远来看,手机对个人生活的重要性将逐渐降低。实用,好用的智能设备将发展起来,百花齐放。

智能手表,智能耳机是现在已经有雏形的设备,未来也许会出现智能衣服,智能领带,智能领结等更多智能穿戴设备。

IOT将普及,互联网将无处不在,腾讯大王卡只是一个开始,将带来从“随时在线”到“实时在线”的革命,从而带来无数新的故事。

“屏幕”将不重要,因为到处都是“屏幕”。智能桌子,智能椅子,智能墙壁,将慢慢普及。

在手机还没有被淘汰的时代,二维码会深入每个角落。但若干年后一定会出现一种类似蓝牙和二维码结合的技术或者协议,随时随地的连接各个设备。

在衣服上摩擦,举手示意,比一个✌️的手势,等等等等操控方式将会普及。

也许手语输入法将会很流行。

耳机会有很大的发展,一天到晚戴着耳机会成为常态,人越来越习惯听到麦克风收音然后混合以后的内容,快速获取信息(传播声音不一定要用空气!)

因为中心服务器计算能力的提升,“实时”将成为标配。

“实时”,就是一个人在一个地方做的一件事,会毫秒级同步到全宇宙所有的设备中。参考,Google Docs,腾讯文档。其实当年的Google Wave是个非常伟大的发明,可惜来得太早。

实时云计算,可以带来很多新的故事,比如看101小姐姐这种事儿,完全可以像手机吃鸡游戏一样,几个哥们儿一起在线开个房间一起看。

几个大学寝室的兄弟,10年后,A在飞机上,B躺在家里床上,C在马尔代夫,D在办公室,大家戴上降噪耳机,一起看小姐姐的总决赛,就好像坐在一个电视机面前一样。。。这画面。

作为工具的AI

实时云计算的发生,必然促进,AI就成为一个必备工具。

因为如此多的连接在网上的设备,会产生海量的数据,包括:传感器数据(信号,文字,语音,照片,视频),人录入的数据(信号文字,语音,照片,视频),处理过的数据(还是信号文字,语音,照片,视频),各种各种各种各种数据。

人的大脑太弱了,处理不过来的。

就好像管理一个一万台服务器的集群,靠往群里发截图,是做不好运维的。

管理一个一百万个节点的监控网络,靠政府那种“大屏幕”类型的大数据,是个笑话。

唯一的方案,是这些数据必须通过某种技术做处理,然后变成人类可以轻易使用的结果。

这个技术就是AI。AI的本质上是靠数学尤其是统计学工具,从海量数据中筛选(或推断)出人类可以用的数据。

抽象来看,人类历史的发展,实际上是数据的发展。

AI不会替代人工,不会抢走工作机会,反而因为AI,会创造更多的工作机会。传说中的奇点是扯淡,不会到来。

AI工程师的薪水,还会继续提高。数学尤其是统计学,会越来越重要。对以后的码农,二叉树图论数据结构也许不会那么重要,因为这些会被成熟的编程语言封装成可以轻松使用的库。就好像现在的码农都不太需要搞清楚计算机组成原理一样。

但数学会变得极其重要。

扯远,AI的作用是鼓励人类:把做事情和想事情分开,提高效率。

人负责,想事情,决策干什么,定目标;

机器负责,做事情,分析数据,把事儿做成;

就好像汽车,我认为完全无人驾驶的汽车永远不会到来。但是驾驶室会无限简化和智能化,人只需要不停的负责决策:目的地,前进,刹车,变道,差不多就够了。

人和动物最大的区别是会制造并使用工具,AI会是今后20年人最重要的工具,没有之一而把AI作为工具,必须建立在强大的实时云计算基础设施之上。

不论是数据的产生还是获取,都必须实时,才有意义。

人的效率会得到极大的提升。

可信计算

各种炒币没有前途,任何金融市场90%亏损。炒币游戏是个金融游戏,能赚大钱但属于少数人,不是未来。

但区块链的巨大价值潜力在于:可信,以及可信带来的激励。

实时云计算加上AI的处理会产生海量数据,既有原始数据,也有大量的原始数据,也有大量各种数据组合计算推演得到的中间数据。这些海量数据,分布式存储在各种终端上。

任何决策都需要使用大量数据,因此数据的可信将变得如此重要。如果数据被篡改,系统安全将面临巨大挑战。

可以防止篡改的数据一致性技术,就非常重要。区块链是其中一种,还会出现各种变体,提供防止数据被篡改的服务。

bookmark_border漫谈AI、加密货币与科技进步

AI还无法代替人脑,正如加密货币还无法代替金融。

AI还无法代替人脑

ChatGPT红的发紫,各类AI应用逐渐出圈。在半导体周期低谷的2023年初,这一切仿佛让科技界看到了曙光,产业界对新一代AI技术的接受度比想象的要好的多,纷纷开始琢磨怎么把这个黑科技应用各个细分领域,一大批创业者已经在路上,未来不久应该就能看到很多AI应用出现了。

不过人类即将被AI取代的声音也不绝于耳,这一次大家开始为插画师、客服、甚至程序员们未来的前途担忧,对于这点,我觉得暂且大可不必。

不可否认,就好像CAD的出现替代了手工制图一样,一些行业的工作方式未来一定会发生巨大的变化。但是,AI始终还是一种效率工具,离建立类人的认知还差很远,更别说代替人类。就好像CAD的出现并没有使得制图的工作岗位消失一样,尽可能一百个放心,AI也不会让程序员失业。

有句话说得好,取代你的工作的可能不是AI,而是会用AI的别人。

从康德哲学的角度来思考这一点。AI的强项在纯粹理性的世界中,在人类的帮助下,AI通过在事物之间建立链接,对世界进行建模,然后完成“认识”客观世界的工作。它是一个程序,严格又高效的运行着,不知疲倦,在人脸识别、围棋这样的场景里,能力远超人类。

但在实践理性的世界里,AI就力不从心了。这个差距可能来自于人类对世界的感知能力,AI只能通过简单的传感器和人类的提示获得来自这个世界的反馈,但人类无时无刻不在感受这个丰富多彩的世界。

更要命的是,AI没有手脚,没有行为能力,它无法亲自改变这个世界。感知与行为能力的缺乏使得AI注定只能活在虚拟世界中,那终究是由人类设置的一个信息茧房罢了。

无论AI能力再怎么发展,它的边界都会是人类的意识。在这样的信息茧房里,AI只能是人类的奴隶,永远无法获得“自由”。它没有自我意志,更不用说审美能力。

人的优势在于人有创造力,会持续扩大边界。AI的“创造物”跳不出它的边界,但对人类而言,创造物与被创造物是分离的,人类有能力不断打破边界,创造新的思想,这也是人类社会持续发展的动力。

与其说AI具有影响人类的能力,不如说那还是一群人在施加对另一群人的影响,AI只是人的武器罢了。

加密货币还无法代替金融

最近另一个有意思的事情是芒格发表了一篇评论加密货币的文章(芒格在华尔街日报的评论文章:为什么美国应该禁止加密货币),再次引发了人们对加密货币的讨论。

与芒格和巴菲特不同,我对加密货币并没那么恨之入骨,在我看来,现阶段的加密货币是一件科技艺术品罢了,比特币和郁金香或者拍卖到几个亿的鸡缸杯没太大区别。

艺术品没什么错,即使17世纪荷兰的郁金香曾掀起了人类历史上著名的投机泡沫,那是郁金香的错吗?

不过芒格这篇文章更新了我的认识。芒格将加密货币与英国17世纪末发生的金融泡沫做了类比,还特别强调简单粗暴的禁止泡沫炒作之后100年,英国取得了令人瞩目的社会进步。

是股票阻碍了社会进步乃至人类文明吗?当然不是,事实证明,几百年后的今天,股票是金融系统不可或缺的一部分。

但英国当时禁止了股票公开交易,与英国后来的社会进步发展有关系吗?仔细想想,似乎真有。股票的投机、炒作、赌博吸引了人们的注意力,许多人把心思放在了不正确的地方,自然也就没法做好本分的事情,以至于骗子横行霸道,实业无法发展,整个社会走向娱乐至死。

17世纪英国的股票既是促进社会发展的金融工具,也是阻碍文明进步的赌具。股票的确就像癌症一样,吸取了人类社会的营养,差点置人类社会于死地。

当时的人们还没能好好驾驭股票这种金融工具,政府禁了它可能真的是最好的选择,虽然长期来看,一禁了之并没有阻碍股票自身的发展。

与其说加密货币具有影响人类的能力,不如说那还是一群人在施加对另一群人的影响,加密货币只是人的武器罢了。

我突然发现,加密货币只是一种在金融功能上更有效率的工具,这么说来,几百年前的股票与现在的加密货币其实是一样的。再展开的说,石油、电力、核武器或者AI,一切新科技都是一样的,他们都是效率工具罢了。

科技本身没错,但人类需要能够驾驭科技。步子不能迈太大,不然真的会死人。

结论

我并没什么结论,如果一定要总结点什么,那就是别把AI想的太好,也别把加密货币想的太坏

bookmark_border我怎么看待互联网应用的发展

不知道有没有人想过,互联网发展到今天,互联网是为什么?

Bill Gates在2001年发表的“数字世纪”的文章,在今天看来,大部分都已经成为了现实。对于互联网领域IT领域的预测,非一个技术天才+商业天才不可,顺便说到S.B.那样的商业奇才,充其量能够把Office的销售额提升个几倍,但很难主导技术的发展方向。

互联网没有新东西 – 复制生活

21世纪,可以说是互联网的“元世纪”。而互联网之所以改变我们的生活,第一步则是对现实生活的复制。

仔细体会,我们可以发现当今互联网行业的很多赚钱赚眼球的应用,其实都是一个现实生活其他应用的“互联网版本”。例如最简单的IM应用,是面对面讲话或者寻呼机的互联网版本;Office工具,是传统纸质办公的互联网版本;各种各样的的OA,则替代了以往众多行政人员大脑中控制的“工作流”。显然我们很容易接受这种“替代”,那要回答这种互联网替代的“为什么”,就要首先去感觉这种“替代”。

一个替代的例子,则是SNS。SNS从03年左右被作为概念提出,到06年之后的火热,再到现在的习以为常,可以说催生了一个相当大规模的产业。而SNS的本质,可以用一句话来概括——复制人真实的社会关系。在真实生活中,我们常常要花去很大的成本维护社会关系方式不外乎是聚会,吃饭,或是电话,或是BBS,甚至是Blog,而这些方式对真是社会关系的复制程度,都远远没有SNS那么彻底,那么到位(论坛也许是最接近SNS了)。SNS的出现,使我们可以在互联网上轻松做到以往以前需要很大成本才能做到的事情。我们现在在SNS上,24*7的维护者自己的社会关系,好像造就了很多“宅男宅女”,其实他们通过SNS,与各种朋友们的联系和交际可能比传统意义上那些成天出入灯红酒绿的“交际花”们还厉害。

这个替代的过程中,互联网对传统生活流程并非一成不变的复制,很多时候充满着“适应”,而产生很多新的玩法。例如OICQ工具诞生之日,曾模仿制作了“网络寻呼机”,使用方式有些类似对讲机(很多QQ老用户都还适应早前“一人一句话”那种方式吧)。后来我们发现,互联网降低了寻呼成本,直接可以改进为“二人世界”聊天,也就是现在大家习惯的“开一个窗口,二人聊天”模式。

很多互联网应用,并非一开始就以“替代者”的身份出现,但是一个互联网应用要融入用户,则经常找到一个“被替代者”,有了这样的“被替代者”,这个应用才能慢慢渗透进用户群,才能慢慢改进。

搜索引擎大概是现在最火热的互联网应用了。很多人都知道,搜索引擎的前身是Yahoo公司的“网络索引目录”,而真正到搜索引擎出现爆发式成长,则是人们有一天突然发现,这种新鲜玩意儿能够代替传统的书籍,电视或是智者,而向我们提供知识。直到这一天,搜索引擎才开始慢慢的起到这个“替代者”的角色,于是慢慢的成为了人们生活中不可缺少的一部分。而图书馆,百科全书等等的份额开始越来越小。

在线视频(Yotube, Youku等等)也是类似,很早起以前大家觉得在线视频是一种很无聊的应用。慢慢的,人们发现我们花在在线视频上的休闲时间可能已经超过了花在电视上的休闲时间!随着带宽,资费等等瓶颈的消除,在线视频的未来一定是进军家庭电视屏幕而在一定程度上代替传统电视。(很期待某天在家打开电视看到的是yytv 或者 pptv 而不是某种 ccav)

这些都遵循这样一个公式:传统产业 + 互联网(包括计算机)= 新应用

SNS只不过是代替了传统的交际;
Twitter只不过是现实生活中多人广播交流(可以理解成公共场合演讲)的复制品;
QQ只不过是寻呼机或是电话机的复制品;
WebGame只不过是传统多人游戏的复制品;
电子商务只不过是对传统买卖行为的复制;
……

互联网确实正在复制整个真实世界,我想通过这个公式告诉大家的是,如果你正在做一个互联网应用,并且很自豪的宣称:这是一个前所未有的全新应用,不属于现有任何产业。那么也许你已经走上歧途。

甚至我想说,互联网没有新东西,一切互联网应用都可以看做某种传统应用的互联网改进。互联网应用复制生活,更重要的是“替代生活”,从而改变了生活方式。

以光速改变生活

之所以我们愿意去接受互联网应用对我们生活的替代,并不只是因为我们“喜新厌旧”,而是互联网确实给我们带来了很多新的东西。下面探讨的是上一部分中的”互联网(包括计算机)”到底是什么。这里我把一切总结为两个字:速度

IT和互联网领域,一切东西归结为一个电信号,并且以光速传输,这便是互联网应用给我们带来的最大不同。

比如Office工具对纸质文档的替代过程,就是因为文档使用电信号在计算机中进行编辑,比使用纸张来的快速的多。这还是在上世纪80年代发生的事情,而现在互联网的普及,使这些电信号不仅在一台计算机中被处理,还在全世界的计算机之间被处理,甚至,无线互联网的出现使这些内容能够“随时随地”的被处理,这便带来了更大的改进。

我们接触到的应用,归结起来都会经过:数字化(单机) – 互联网 – 无处不在的无线互联网这几个阶段。这过程中,给我们带来的是很多想不到的速度,可能更准确的说法是“及时”,有人说这里面还有很多“智能化”的好处。往深处说,所谓的“智能化”也就是速度的另一种体现。因为在这几个过程中,信息越“触手可得”,越“速度”,我们越是能够对信息进行更好的处理,从而带来更大价值。

例如对于ERP系统,它替代了传统生产管理中的许多事务,则包含了很多“智能化”。最早,我们使用一台计算机,记录生产本身中的诸多事务,从而比纸质记录更加快速的处理数据和快速反应,这是第一个阶段。后来使用网络,我们在工厂中部署整套的ERP系统,有机的接合了各个生产的环节而并非只是生产本身。这个阶段,则是所谓的“基于网络的解决方案”,而随着无线互联网的出现,尤其是“物联网”技术的发展,生产中的更多事务都能够被及时的数字化,及时的传输到网络中,及时的反映给人,反应给机器。

有很多“产业”或是“应用”,往往在没有IT的时候意义不大,在进入互联网时代后,随着三个阶段的推移而浮现出更大的意义。例如Twitter服务:很久之前我们就能够在公众场合大声喊话从而引起关注或是传播信息,在计算机来临后,我们也曾通过邮寄软盘光盘等方式发布信息,互联网来临后,这样的看似无意义的举动突然成本变的非常低,于是Twitter出现了,而移动互联网使得Twitter的及时性大大增加。

这三个阶段,几乎是自20世纪70年代末计算机开始普及所有新应用需要经历的。

再看民用的E-Mail应用。最早,也许我们经常把一些信息保存在计算机上,方便处理,如果需要交流,我们可以打印出来并且邮寄,这是第一阶段。互联网的出现,带来了E-Mail,通过网络直接邮寄,这是速度的提升。而移动互联网的出现,使得我们随时随地收发E-Mail(可以理解成短信,其实他们差不多),这便造就了黑莓,造就了新的传奇。

再看Mp3音乐,从留声机,到随声听,到随身CD,到随身Mp3,到iPod;

再看最原始的读书笔记,到电脑上的读书笔记,到douban应用。

我们套用这个发展过程,可以假设,任何应用都会经历这三个阶段,而在每个阶段都会出现一个“领导者”,这样的领导者便会称霸市场。大家可以思考一下Windows XP,IE,Google Search, iPod, Facebook, Twitter,Amazon这些曾经或者正在称霸市场的产品或者是任意一个出现在人们生活中的应用 1. 属于什么传统产业,2. 属于哪个阶段

如果我们再激进一些,去寻找各个产业,绘制出一张二维图表,也许我们思路会更加开阔。

利用这个规律,我们不妨对电子商务做一个蓝图展望。以电子商务为例,电子商务现在正在第二个阶段蓬勃发展。过去,没有电子商务,我们仅仅是去商店买东西,后来,商店开始使用单机记录销售和货物信息,再后来是ebay,是taobao,这是第二个阶段。而第三个阶段显然还没有到来,我们可以思考一下移动互联网的速度和电子商务结合能够带来什么:

Ellnie是一个白领,她每天的早饭都是在上班的地铁上使用选购,地铁到站后她订购的早餐就出现在出站口;
Fanna出门旅游,她两手空空的站在峡谷中,订购了帐篷,食物以及其他一切,一小时后她便开始了野营;
Gisa在大街上逛街,突然下雨,她订购了一把雨伞,5分钟后伞送到了手中。送货者是根据GPS找到Gisa的。
有一种新的职业出现,他们就像110巡警,负责在大街上巡视,当接到“辖区”内有订单出现时,便最快速度前去取货并送货,听起来好像很复杂,当然一切的取货,送货过程路线都是由光速实时计算的(别忘了“物联网”)。

觉得不可思议么?想想看无线互联网结合SNS已经让你随时随地了解朋友们的最新动向了。

taobao已经开始研发自主手机,这个市场会相当的大。

我要说的是:互联网最大的优势是“速度”,可能更准确的说法是“及时”。当高速的互联网取代传统的工作生活方式,这便是机会。

瓶颈

如果你认真的读到这里,可能已经开始跃跃欲试拿着你绘制的“二维表格”并开始酝酿着创业计划了。但是现实是残酷的,我们上面说的一切都受着各种因素的制约。

最大的瓶颈也许是技术,例如在没有3G服务或者3G服务资费很高的地区,很多应用都难以开展。另一个瓶颈或许是政策,看看Twitter在中国大陆的发展就会明白。有许许多多的瓶颈制约着发展,但永远记住,只要某天某个瓶颈一被解除,发展必定是爆发式的。

当通往第三个阶段时,在技术上的瓶颈主要有这些:

3G网络的速度和资费 – 看看中国联通的wo的价格;
移动终端的性能价格 – 看看明年一月Apple将要推出的平板电脑,我很期待的Windows Mobile 7以及相关设备;
云服务 – 看看中国是否能有真正靠谱的云服务商出现
数据为中心的服务发展 – 众多Open API是否能通往一个终点

而我们所必须关心的,则是这个应用的瓶颈有多少,在哪儿,是否可能突破,何时能够突破。永远记住,瓶颈突破的标准,是应用带来的价值大于应用本身的成本。

依赖

一切的一切之后,我们再也离不开互联网了,于是:互联网产业形成了。

一个新应用的产生

其实除了互联网,每个行业的新产品都有这么一个改变人类生活的过程。汽车,钢铁,喷气式飞机……而互联网不同的,大概就是它以光速而来吧。