数学之美

  • 2012 是那个时候太阳纪的最后一年,所以被谣传成世界末日

  • 西方拼音文字统称罗马式的语言(Roman Language)

  • 上下文无关文法,算法复杂度基本上是语句长度的二次方 而对于上下文有关文法,复杂度基本上是语句长度的六次方

  • 统计语言模型

  • 马尔科夫假设

  • 罗塞塔石碑

  • 不同语言的冗余度差别很大,汉语在所有语言中冗余度是相对小的

  • 小学生和中学生其实没必要花那么多时间读书 中学阶段花很多时间比同伴多读的课程,上大学以后用很短时间就能读完 学习和教育是持续一辈子的过程 少年班的做法不足取

  • 布尔代数对于数学的意义等同于量子力学对于物理学的意义,它们将我们对世界的认识从连续状态扩展到离散状态

  • 爬虫

    • 定义
    • 从任意一个网页出发,用图的遍历算法,自动访问到每一个网页并把它们存起来
    • 其他
    • 一个商业的网络爬虫需要有成千上万个服务器,并且通过高速网络连接起来
    • 搜索引擎的网络爬虫问题更应该定义成“如何在有限时间里最多地爬下最重要的网页”
    • 在搜索引擎的爬虫里,BFS 要明显优于 DFS,但此处的 BFS 是相对复杂的下载优先级排序方法,一般称为调度系统
  • TF-IDF(Term Frequency / Inverse Document Frequency,关键词频率 / 逆文本频率指数)

  • 向量的方向具有很大意义

  • 虚词的权重是一种噪音

  • 两个事物之间的相似度可以提取特征值,用余弦定理求

  • 奇异值分解

  • 信息指纹的用途

  • 密码学相关

    • 好的密码必须做到根据已知的明文和密文的对应推断不出新的密文内容
    • 同文密电在密码学上是大忌
    • RSA 密码原理
    • 公开密钥在原理上非常可靠,但很多加密系统在工程实现上留下了不少漏洞
  • 部分降噪实现原理:加上频率相同、振幅相反的信号

  • 搜索引擎反作弊的一个工具是图论,另外还需要一定时间

  • 格里高利日历,今天的日历历法

  • 关于数学模型

    • 一个正确的数学模型在形式上应当是简单的
    • 一个正确的模型一开始可能不如一个精雕细琢过的错误模型来得准确,但是如果我们认定大方向是对的,就应该坚持下去
    • 大量准确的数据对研发很重要
    • 正确的模型也可能受噪音干扰,而显得不准确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,这也许能通往重大的发现
  • 最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设

  • 认知科学的研究表明,在脱稿输入时,拆字的过程会使思维变慢,并且一心不能二用

  • 维特比算法是针对一个特殊的图——篱笆网络的有向图最短路径问题而提出的,整个维特比算法的复杂度是 O(N * D^2)

  • 码分多址:接收者在接收到不同信号时,通过密码过滤掉自己无法解码的信号,留下和自己密码对应的信号即可,由于这种方法是根据不同的密码区分发送的,因此称为码分多址

  • 期望最大化算法: 首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程(Expectation),或者 E 过程;接下来,重新计算模型参数,以最大化期望值,此过程称为 M 过程。这一类算法都称为 EM 算法。

  • EM 算法如果优化的目标函数是一个凸函数,那么一定能保证得到全局最优解,而如果不是,则不保证

  • 人工神经网络和贝叶斯网络

    • 共同点
      • 都是有向图,遵从马尔科夫假设
      • 训练方法类似
      • 处理效果相似,但效率可能会不同
      • 计算量都特别大
    • 不同点
      • 人工神经网络在结构上完全标准化,而贝叶斯网络更灵活
      • 贝叶斯网络更容易考虑上下文前后的相关性,因此可以解码一个输入的序列
      • 人工神经网络的训练算法相对简单,容易并行实现,而贝叶斯网络不一定能够并行化
  • L-BFGS(Limited-memory Broyden Fletcher Goldfarb Shanno Method0) 比一般梯度下降法收敛更快

  • NP 问题