智能时代算法百家争鸣忽略数据泄露

摄影频道 · 07-30

  所谓算法,是指研发工程师精心设计的一套数学模型,它就像一个解决方案,描述了解决某类问题的一系列操作步骤,而对于同一类问题,解决方案可以存在多种,在不同的情况下解决方案各有优劣,所以现阶段人工智能领域的算法层出不穷,适用的范围也不尽相数据结构与算法同。

  经典的人工智能算法已有数十种,比如决策树,随机森林,逻辑回归,贝叶斯,蚁群,神经网络等,未来还将创新更多,在实际应用中解决一个问题往往会运用到1或N种算法,比如战胜李世石的AlaphaGo就使用了基于神经网络算法的深度学习技数据结构与算法分析术,以及蒙特卡洛树搜索算法才能实现超越人类棋手。

  想在人工智能领域寻求商机的创业者,以及AI产品经理而言,学习理解和选择算法,将比写出算法本身更重要,就好像互联网时代优秀的产品经理虽然不需要coding(写程序代码),但必须要懂得数据库技术如何实现,以及选择什么样的技术方案最合适,在未来的人工智能时代,对算法边界的理解(即什么算法适合用于什么场景),将会变成优秀创业者和AI产品经理重要的技能之一。

  所谓数据泄露(dataleakage),是指已知数据集的特征(即数学模型X)中包含了目标值(即Y)的强相关特征,而在实际评估阶段,输入数据中并不包含这些强相关特征,这将导致我们训练得很好,测试得很好,但是实际应用时,结果非常差。

  在特征工程中我们把每个小区均价作为特征,将获得非常棒的训练指标,测试指标,原因是模型几乎是把本小区均价拿来用了。

  但是,在实际使用时,由于用户不会输入本小区均价(要知道均价还评什么劲,),你只能去检索最近小区的均价,模型的表现将取决于最近小区的均价是否与目标小区均价接近,接近则表现很棒,否则将非常糟糕,电子数据。

文章推荐:

通信电缆接续问题提高网络传输速度

5g发展准备方向信号完整性的定义

如何避免无线通信干扰实际性能评估

自动化通信技术通信工程技术传输类别

通信工程毕业设计方向发展5G有必要吗