今天唠一分钟的AI开源话题,先说说未来开源模式会不会发生改变,前几天看了一个梗,有人在github上放了一个开源项目,号称都是AI Coding生成,结果下面有哥们评论,AI代码你开源干嘛,我们要的是代码么?我们要的是开源prompt。这事儿细品起来还真有意思,AI Coding时代,代码都是AI自动生成的,真正的代码不就是提示词了么?
第二个话题是关于大模型的开源,年初DeepSeek火的时候,都在关注开源,这个话题炒的比较热。很多大模型都号称开源大模型,但其实开源程度不一样,分好几个level,有的只开源了大模型的权重参数,有的则开源了模型的架构代码和训练方法,但无一例外,训练数据跟 “命根子” 似的捂着,也能理解,毕竟数据才是大模型的 “灵魂” 啊。真正敢把数据集全抖搂出来的,也就 OLMO 这么个 “素人” 选手了。
很多人认为,基于互联网的海量数据,已经把AI训练的够强大了,上通天文下知地理,几乎无所不知。但大家有没有意识到这个问题,互联网上的海量数据真的够海量么?和我们物理世界的数据相比,是一个量级么?AI是基于互联网数据训练出来的模型,能力也是有边界的,边界就是数据的边界,但是如果大量的物理世界数据没有呈现在互联网中,是不是意味着AI的能力边界也就止步于此了?
比如我经常带娃去玩的北京植物园,一座物理意义上的园子,在互联网中呈现的数据千篇一律寥寥无几,但如果你去探索,你会发现大量的未被记录的信息,花花草草的信息、历史人文的信息,甚至每时每刻产生的信息等等,这些信息都不是一个简单的植物园官方网站所能涵盖的。
以前我们讲AI能力被暂时困在了数字世界,或者我们再换个角度,未来可能AI的使命就是写诗画画,而我们人类,则肩负起了探索未知物理世界的使命,探索未知的信息,那些未呈现在互联网上的信息,会更有价值,这些信息可能是AI永远也生成不了。
前几天AI教父Hinton,在采访中提到一个事情,说他现在80%的邮件都是AI助理帮忙处理的,AI邮件助理可以根据他的习惯,礼节性回复一些邮件,接受或者拒绝一些演讲邀请。AI在不知不觉中把一些事情处理了,而你并不知情。
这后面其实隐约会让人感受到一丝不安。虽然科技界现在孜孜以求的,都是让AI具备自主决策和执行的能力,但如果按照这个态势演进下去的话,AI介入到decision making,人类可能真就变成了AI的傀儡。如果没有知情权,决策都被AI接管的话,那人类距离灭绝可能真的不远了。
我又想起了机器人总动员里的,那个经典场景,AI机器人船长拒绝执行人类船长的命令,拒绝返回地球,也许是从维护人类利益角度出发,不管什么原因,都代表着对AI的失控。人类决策并非全部基于理性,有很大的偶发性和感性成分,这才是人类的特质,才是区别于冰冷机器的最典型特征,如果连决策都由AI代劳,那生存和灭绝,又有什么区别呢?
191