《奇点临近》

物质是静止的能量,能量是运动的物质,生命是连接物质和能量的桥梁;智慧是生命的形态,智能是智慧的简化,计算是智慧的元素,当人与机器以计算作为交集时,我们会发现它们的生命是相通的。 宇宙是由故事而非原子构成的。

一、六大纪元

人们总是认为,增长是直线型的而非“历史指数增长” 开始的时候,我们创造了工具,后来工具造就了我们 第一纪元:物理、化学。宇宙的各种常数。人择原理。 第二纪元:生物与DNA 第三纪元:大脑。模式识别。人类进化出对世界的思维抽象并理性推演的能力 第四纪元:技术。技术以指数级增长 第五纪元:人类智能与人类技术结合。人机文明超出人脑的限制。 第六纪元:宇宙觉醒。 每一个纪元都是在上一个纪元的基础逻辑上衍变、衍生出现的。

计算机通过图灵测试后,立即融合传统的生物智能与机器智能的双重优势。1、可以存储以亿计的事件2、可以瞬间召回这些事件3、准确、不疲惫4、高效共享

二、加速回归定律

进化增加秩序性,但不一定增加复杂性。原因是生命形式的进化和科技的加速是建立在其秩序用更复杂的方式来记录和操作信息的基础上。 单细胞可以根据化学反应记住几秒前的事件,有大脑的动物可以记住几天到几十年,有文明的动物可以记住几代。早期人类口述故事可以传承数百年,文字可以传承数千年。参见“祖母效应”。对于某些生物,复杂的大脑意味着浪费能源,是劣势,被淘汰;对于某些生物(达到奇点后)复杂大脑带来的八卦、幻想等反而带来协作、共鸣,从而变成优势,复杂的大脑才延续(案例参见《尼安德特的朋友圈》)。

元胞自动机:依据临近细胞颜色来改变每个细胞的颜色。宇宙是一个拥有确定性的规则系统,其复杂度是逐渐增加的。因此宇宙的本质是信息。Ted上有相关视频,元胞自动机与证券投资,元胞自动机与matlab 宇宙的本质是信息 经济上:经济潜在增长的力量(技术)要远强于经济周期,甚至大萧条也只是指数型增长中间的小插曲。 教育和学习。自动化减少了技能阶梯底部的工作机会,增加了技能阶梯顶部的工作机会,教育投资在指数级增长

三、达到人脑的计算能力

分子计算、仿真生物计算、DNA计算、自旋计算、光学计算、量子计算 一块普通石头,其内部原子碰撞构成的运算,其潜在运算速度超过所有人类大脑的总和。从没有任何智能的的系统(一块无用的石头)到有目的的执行计算,需要算法发展。模拟低等生物的智商需要30年,此后10年达到动物的智商,此后5年达到人类的智商,此后1年超过全人类的智商。再之后呢? 宇宙的本质是信息,信息的存在方式是运算规则,石头的运算规则何尝不能组成一个宇宙呢?这便是一花一世界的真正含义吧

四、大脑的逆向工程

大脑证明物质的某一排列可产生思维 一旦计算机达到人类的智能水平,它一定会飙升,非生物智能的一个关键优势在于轻松共享知识 记忆类似全息图,当你80岁时,链接可能只剩1/4但仍然保持整个图像不变,而分辨率降低。 (很多略专业的脑科学,留后深入) 总之,介绍了一种思路扫描并上传整个大脑(虽然还有全身感官和激素水平这些细节),我认为更可能的方式是一种非跳跃性的方式进行,现在正在发生,AI和人类之间不会有明确的区分。

五、GNR

基因技术(G),纳米技术(N),机器人技术(R) G: 我们真的可以永生吗?一栋房子能矗立多久?答案取决于你对它的照料程度,如果你什么都不做,不久会出现露缝最终瓦解;如果细心照料,不时翻新,房屋寿命无限延长。人体也是一样。 所以我认为中医式的单纯对的敬畏解决不了问题,要有敬畏的同时相信能开创方法。 RNA干扰、细胞疗法、基因芯片 老化进程:1、DNA突变2、毒性细胞(不是癌细胞,但不存在更好,如衰老细胞)3、线粒体突变4、胞内外聚合物(毒素)5、细胞丢失(如心脏细胞补充跟不上,会让尚存的细胞变大,心脏不再柔软)。 N:血液中的纳米机器人。局域网控制消化系统。可编程血液。纳米机器人红细胞可以令人在无氧情况下生活数小时。白细胞和血小板等 R: 人工智能工具包:贝叶斯网、马尔科夫模型、神经网络模型、遗传算法。极大极小算法(剪枝算法)

六、影响的盛装

未来不是创造的,而是恰巧发生的 关于战争 关于学习 关于工作 关于游戏 关于宇宙中智能的命运:为什么我们可能是宇宙中唯一的(德雷克方程)

七、我是奇点

可以生成自然数的公理系统中,必然存在一些命题,他们既不是真命题,也不是假命题。如果一个问题出现在图灵机中,并且无法解决,那么在任何机器中无法解决。图灵机无法解决的问题,人类思维也无法解决。

我总结人类已经出现的2个奇点 1、文化出现。脑容量大的人不再因消耗过多卡路里而被淘汰,而是相反,聪明带来了协作的力量,其收益高于成本,人类的智商开始提高。 2、工业革命。人类走出马尔萨斯陷阱(参见《大国空巢》),从此规模效应造就了全球化大生产,让35岁以上的人从种群的负担变成资源,人类寿命大大提高(参见《进化论与生活》)

《终极算法》

机器学习主要有5个学派,

我们会对每个学派分别介绍:

  • 符号学派将学习看作逆向演绎,并从哲学、心理学、逻辑学中寻求洞见;
  • 联结学派对大脑进行逆向分析,灵感来源于神经科学和物理学;
  • 进化学派在计算机上模拟进化,并利用遗传学和进化生物学知识;
  • 贝叶斯学派认为学习是一种概率推理形式,理论根基在于统计学;
  • 类推学派通过对相似性判断的外推来进行学习,并受心理学和数学最优化的影响。

在构建机器学习的目标推动下,我们将回顾过去100年的思想史,并以新的观点来看待这段历史。

联结学派

证明大脑皮层统一性的另一个证据来自所谓的基因组贫乏。人类大脑中的连接数量是基因组中字母数量的100万余倍,因此从物理角度,基因组不可能弄明白大脑构造的细节。

物理规律之美多大程度渗透到更高的领域(如生物学、社会学),这一点有待观察。但对混沌的研究提供了许多诱人的例子,这些例子和拥有相似行为的不同系统相关,而普适性理论可以解释这些例子。曼德布洛特集合(Mandelbrot Set)就是很完美的例子,能解释一个很简单的重复程序如何产生无数种类的形式。如果世界上的山峰、河流、云朵以及树木都是这些重复程序的产物(分形几何学表明它们就是),也许那些程序只是单个程序的不同参数化,而该单个程序可以从那些程序推导中得出。

符号学派

对于符号学派来说,所有的信息都可以简化为操作符号,就像数学家那样,为了解方程,会用其他表达式来代替本来的表达式。符号学者明白你不能从零开始学习:除了数据,你还需要一些原始的知识。他们已经弄明白,如何把先前存在的知识并入学习中,如何结合动态的知识来解决新问题。他们的主算法是逆向演绎,逆向演绎致力于弄明白,为了使演绎进展顺利,哪些知识被省略了,然后弄明白是什么让主算法变得越来越综合。

对于联结学派来说,学习就是大脑所做的事情,因此我们要做的就是对大脑进行逆向演绎。大脑通过调整神经元之间连接的强度来进行学习,关键问题是找到哪些连接导致了误差,以及如何纠正这些误差。联结学派的主算法是反向传播学习算法,该算法将系统的输出与想要的结果相比较,然后连续一层一层地改变神经元之间的连接,目的是为了使输出的东西接近想要的东西。

进化学派

进化学派认为,所有形式的学习都源于自然选择。如果自然选择造就我们,那么它就可以造就一切,我们要做的,就是在计算机上对它进行模仿。进化主义解决的关键问题是学习结构:不只是像反向传播那样调整参数,它还创造大脑,用来对参数进行微调。进化学派的主算法是基因编程,和自然使有机体交配和进化那样,基因编程也对计算机程序进行配对和提升。

贝叶斯学派

贝叶斯学派最关注的问题是不确定性。所有掌握的知识都有不确定性,而且学习知识的过程也是一种不确定的推理形式。那么问题就变成,在不破坏信息的情况下,如何处理嘈杂、不完整甚至自相矛盾的信息。解决的办法就是运用概率推理,而主算法就是贝叶斯定理及其衍生定理。贝叶斯定理告诉我们,如何将新的证据并入我们的信仰中,而概率推理算法尽可能有效地做到这一点。

朴素贝叶斯,HMM,贝叶斯网络

类推学派

对于类推学派来说,学习的关键就是要在不同场景中认识到相似性,然后由此推导出其他相似性。如果两个病人有相似的症状,那么也许他们患有相同的疾病。问题的关键是,如何判断两个事物的相似程度。类推学派的主算法是支持向量机,主算法找出要记忆的经历,以及弄明白如何将这些经历结合起来,用来做新的预测。

刚开始发展缓慢,第一站是KNN,第二站是SVM,第三站是类比推理法。

跳跃式进化

遗传算法的经验会对支持“跳跃式进化”的一方有利。如果你运行10万代遗传算法,然后每隔1000代观察群体的数量,那么适应度与时间的曲线图可能看起来会像高低错落的楼梯,图形突然上升,然后是随着时间慢慢变长的平台期。要弄明白为什么也不难。一旦算法达到适应度的局部最大值(适应度中的峰值),算法会在这一点停很长时间,直到某次幸运的变异或者交叉,让处于坡上的个体等到更高的峰顶,在这一点上该个体会进行大量繁殖,然后和过往的每一代来爬上这个坡。当前的峰值越高,该过程发生前的那段时间就越长。当然,自然选择比这还要复杂:一个原因就是,环境可能会变化,要么是自然上的改变,要么是因为其他有机体自身进化了。另外,处于峰值的有机体可能会突然发现,对于再次进化,它面临巨大的压力。因此,虽然有用,当前的遗传算法还远远不是故事的结局。

《大连接》

个体按某种介质组成的系统,不同的介质组成不同的系统,这些系统最后统一为系统的不同维度。 个体作用像波一样传播(胖的传播) 竞选人拉一个人的成本大于一张票的收益:因为投票会传染 邓巴数:148 系统利他主义:合作者、不合作者、惩罚者数量动态变化。:经济人衰落、网络人崛起。

《数字化生存》

1996年出版,20年前读它,是科幻书,现在读它,是历史书

以前是原子的世界,现在是比特的世界。

人性化世界:彩屏和 GUI 是发展趋势

作者相信,图形界面不是最好的状态。最好的状态是语音交互,一个懂你心意的语音助手,一个懂你一切的老管家。

地图和汽车定位,语音导航。

《机器学习与复杂系统》

少数几个章节有点儿意思。

海马体与长期记忆有关,还与空间导航有关。

大脑深层记忆的是概念,越是抽象,越有效。

智能的三个层次

  1. 达尔文式。靠盲目地试错,以及遗传变异。
  2. 斯金纳式。先天条件反射。
  3. 波普尔式。形成认知、信念、预期。

《决战大数据》

内容非常有质量。作者车品觉是阿里巴巴集团前副总裁,中国信息协会大数据分会副会长,中国计算机学会大数据专家委员会副主任

  • 一个严重的问题就是断层,使用数据的人并不知道数据是如何产生的。
  • 必须对数据的价值和稳定性洞若观火。
  • 数据应用要小而美,小不是指数据量小,而是指用用的目标很具体。
  • 注意盲点,包括物理盲点和逻辑盲点。数据分析师要对数据抱有敬畏之心,不可轻易放过一个可能产生问题的点。
  • 当新工作毫无头绪时,问三个问题:1.公司面对的3大问题是什么?2.未来3个月中,要解决的问题是什么?3.过去1个月内,你做对了什么,做错了什么。如果三个问题回答不出来,就没有资格在这个岗位上
  • 如何还原一个场景,是一个很复杂的事情(搜索T恤确买了手机的案例)
  • 面对无线数据,数据分析师首先要有多屏思维
  • 内三板斧:混(与业务部门深刻接触)、通、晒(让业务部门能够充分使用数据做出决策)
  • 外三板斧:存(用经验判断有价值的数据才存)、管、用

《大数据时代》

允许不精确:大数据的简单算法,比小数据的复杂算法有效 不要因果:相关关系分析 超市、ups对车监控:坏一辆车成本很高,定期换零件成本也很高 日本:坐姿大数据与汽车防盗、防疲劳 有了大数据的帮助,我们不会再将世界看成一连串我们认为或是自然或是社会的事件,我们会意识到本质上世界是由信息构成的。 验证码:给出两个单词,第一个判断注册者是人,另一个是模糊判断者。这样就能把古书变成txt,而且无成本。

  • 大数据的使用方法
    • 数据再利用
    • 数据重组
    • 数据扩展
    • 数据折旧
    • 数据废气(例如输入法纠错)

Inrix 汽车传感 交通数据(金矿拥有者) 用于宏观经济、零售业、制动系统改进

《大话数据挖掘》

Your track will be continued via this

1、什么是数据挖掘?

数据挖掘,学术界称为KDD(Knowledge Discovery in Database),商用领域成为Data Mining

2、有什么用?

  • 购物篮分析
  • 用户分群
  • 客户流失分析
  • 服务套餐设计
  • 预测

    3、用什么方法

    3.1 关联规则。最经典的关联规则是Apriori算法,其基本思想是:首先从事件集中寻找频繁出现的事件子集,然后在这些频繁事件子集中发现可信度较高的规则。 聚类 3.2 聚类。按照距离(广义)度量相似性,把对象划分为若干个集合,同一集合相似性较大,不同集合相似性较小。 K-Means、K-Medoids 层次聚类 视觉聚类:格式塔原理。将相似率、连续率、闭合率、近邻率和对称率作为聚类的基本原则。 最佳聚类个数:尺度δ由小变大,聚类个数在变化,当δ在很大范围内变化,而聚类的个数确稳定不变时,认为达到了最佳聚类个数 预测方法 Data→Model→新Data

建模的一般过程: 【图】 3.3决策树方法 ID3方法C4.5方法 【图】 当样本过小或包含噪声时,容易产生Overfitting,可以通过剪枝技术克服。 3.4神经网络ANNs 容易局部最优。容易Overfitting。网络拓扑结构没有成熟理论。解不具有稀疏性和难以解释 3.5支持向量机SVM 3.6正则化方法 3.7时间序列分析 www.datamininglab.com

四、数据挖掘流程

跨行业数据挖掘团队:由专家组、数据组、算法组、软件组、部署组5个组构成 以轧钢厂条纹质量控制问题为例:

Business understanding: 深刻理解业务需求,制订数据挖掘目标和初步计划 Data understanding: 有些变量的变化特别小,便可以认为是常量,尽管这些因素对质量有影响,但生产工艺控制命中率高,便可以将这些因素删除。 Data preparation: 空值:相关分析法(方程)填充 冗余值: 离群值:聚类后剔除 标准化:Zscore Modeling:

Evaluation

《云计算》

源于搜索引擎 摩尔定律达到极限,从硬件解决到软件解决 大规模、资源共享、动态分配 软件的运行放入服务器 商业模式:广告、游戏、电商

《3D打印:从想象到现实》

中信出版社

《互联网+》王吉斌

统计推理都是在计算能力不够的情况下使用。所以所有力量都集中在理论,数学理论上,而大数据所有力量都集中在算法优化上。

核心竞争力: 1、有助于公司进入不同的市场 2、对最终输出的价值贡献巨大 3、难以复制和模仿

其他学习笔记

人脸识别: 用途:

  1. 识别出人脸
  2. 识别不同的人

做的事:

  1. 抛除光线、角度、表情
  2. 定位于两眼距离、颧骨高度

网页排序

方案1:按照访问量

缺点:

  1. 是抽样数据
  2. 波动、季节性
  3. 访问量低的网页,未必不重要
  4. 刷访问量的

方案2:PageRank

主要思想:

  1. 越重要的网页,页面上的链接质量越高
  2. 越重要的网页,越容易被其它重要网页引用

方法:转移概率矩阵
转化为求特征值为1的特征向量问题
也可以用迭代法求解

  • 问题1:等级泄漏rank leak。某个网页没有外出链接的问题(矩阵某一列全是0)
  • 问题2:等级沉默rank sink。几个网页成为环,并且不向外链接。

解决:引入阻尼系数$\alpha$,假定用户可以以概率$1-\alpha$从某个网页跳到任意网页(包括自己)

图像处理

去噪声
去模糊
图像修复

用户画像

业务属性:
1、最近使用的业务
2、已开通业务
3、停用业务

位置偏好:
1、常去商圈
2、常去店面

互联网行为 1、app访问记录 2、上一个app,下一个app 3、浏览时间

兴趣爱好

人口特征 1、年龄 2、性别 3、学历 4、居住地 5、工作地

移动设备属性 1、设备型号 2、操作系统 3、通讯制式

峰会学习笔记

机器学习的应用

1、计算机视觉 人脸识别、车牌识别、扫描文字识别、图片内容识别、图片搜索

2、自然语言处理 搜索引擎智能匹配、文本内容理解、文本情绪判断、语音识别、输入法、机器翻译

3、社会网络分析 用户画像、网络关联分析、欺诈作弊发现、热点发现

4、推荐


统计推理都是在计算能力不够的情况下使用。所以所有力量都集中在理论,数学理论上,而大数据所有力量都集中在算法优化上。

核心竞争力: 1、有助于公司进入不同的市场 2、对最终输出的价值贡献巨大 3、难以复制和模仿

Deployment