计算机来当球赛战术分析员看看它们怎么演算的

时间：2018-12-03 20:14:05 阅读：209 评论：0 收藏：0 [点我收藏+]

为什么要研究「计算机视觉」？
「计算机视觉（computer vision）」是研究怎么让机器「看」这个世界。在相机、手机、监视器、行车纪录器等设备无所不在的今天，人类社会中的视讯数据量，前所未有地巨大。中研院信息所特聘研究员廖弘源与团队，教计算机懂得侦测、识别、分析这些影像讯息，进而做出判断或行动，如此可衍生各种重要的应用，如人脸辨识、对象侦测、车辆追踪、街景分析等。轻按快门，相机可以快速找到人脸对焦；机场快速通关窗口，机器能在几秒钟之内认出你是谁；装一台摄影机，就可以计算某段时间内有多少人车经过……「计算机视觉」加上「机器学习」技术的进步，让我们的生活更加安全及便利。不过，计算机可不是一开始就这么聪明的。
技术分享图片

教计算机看世界特征辨认第一课
计算机「看」世界的方式，和你我很不一样。在我们眼中，一张图画里可能有人物有风景。但在计算机「眼」中，却只是几万几亿个不同颜色的小点（其实就是像素，pixel），以某个顺序排列起来而已。中央研究院信息所特聘研究员廖弘源，穷毕生之力，都在教计算机怎么「看」世界：从 0 与 1 组合成的数字世界中，找出各种「特征」、并据此识别出特定的对象，进而判断视讯数据的意义。比方说，妈妈今天烫了个卷卷头回家，爸爸可能会一时之间认不出来，但计算机依然能辨认这位卷发女士是妈妈，因为五官并没有改变。廖弘源和研究团队在 2001 年发表的论文，探讨此一问题，证明「五官特征」才是计算机辨识人脸的依据，而非五官之外的发型、衣着、首饰等，此知识让业界的脸部辨识系统发展地更精准，也成为这领域近廿年来必读的文献之一。以「识别」与「比对」为核心，计算机视觉延伸出很多用途。廖弘源和研究团队廿多年来开发出了多项创新技术，像是人脸和车牌的辨识系统，现在已是治安保全的重要利器；而数字档案加上「鸡尾酒水印」，则可以防范辛苦的智慧结晶被盗用。
技术分享图片

妙手回春老相片老电影重获新生
2006 年起，廖弘源接手另一项艰难任务：「数字典藏与数字学习国家型科技计划」。面对庞大的数字典藏档案，首要工作就是快速有效地判读、批注、并撷取多媒体内容。多媒体数据不只图片，还包括影片。影片等于是一秒钟 30 张图片串接在一起，再加上声音，信息量非常庞大，因此分析难度，跟简单的图片不可同日而语。另外一个大难题是，许多珍贵的老胶卷，有的被虫蛀、有的甚至发霉了，眼看就要损毁。还好，廖弘源研究团队成功打出一记「还我漂亮拳」！一连串视讯篡改（video inpainting）的研究，应用在数字修补技术上，成功帮受损的照片或影片「回春」。
先要能「篡改」，才有能力「修复」。
什么是视讯篡改？目的不是要捏造不存在的历史、或是制造虚构的画面，但透过「无中生有」的原理，却可以还原已经被破坏的元素。像下图照片所示，原本斑驳陈旧，但计算机程序可以自动撷取折痕周边的影像信息，用类似「仿真」的方式，产生出原本不存在于照片上的元素，把缺损给填补起来。要修补动态的影片更加困难，廖弘源团队做出了领先世界的创新研究，采用一种 ISOMAP 技术，以非线性的方式降低维度，不但减少了影片数据运算所需的记忆容量，还能用空间的转换，填补上被破坏的片段，让动作看起来自然而连续。许多发霉的老胶卷、经典电影或相片，在这项技术之下，重获新生。感谢部分信息提供：星座女神测运势 http://mitsp.com
技术分享图片

人工智能当道计算机视觉技术突飞猛进
以上所有研究与技术，在 2012 年遇到了一个重大分水岭，那就是「深度学习（deep learning）」技术的应用。这是一种类神经网络研究，也就是用数学模型去仿真生物中枢神经的结构和功能。早期，这样的研究受限于计算机指令周期，随着计算机效能大幅提升，深度学习的成熟也一日千里。日前喧腾一时的 Google Alpha Go ，就是藉由输入了无数的棋谱让计算机进行深度学习，选出最可能获胜的落子位置，逐一击败各国顶尖职业围棋选手。而在计算机视觉领域的国际盛会──大规模视觉辨识竞赛（Large Scale Visual Recognition Challenge, ILSVRC），主办单位提供 1000 类超过 120 万张的影像，让参赛团队设计的程序去判断类别。 2010 年首次举办时，表现最佳的系统错误率仍高达 28% 。但来到分水岭的 2012 年，透过深度学习技术，错误率大幅降低到 16% 。 2015 年更是一举突破人类极限，错误率达到 3.7%（人眼辨识的极限是 5%），正式宣告，计算机视觉比人类更精准的时代来临。廖弘源的研究团队，也着力于此，开展了两项创新的研究。第一个，是「篮球进攻战术分析」。电视转播的球赛，常听球评或教练，战术分析得头头是道，未来，透过深度学习，可以让计算机直接从比赛的影片中，球员跑动的轨迹，就判读出这一波进攻是打什么战术。另一个研究则是「演唱会片段自动拼贴（mashup）」。一场演唱会，可能有数百个粉丝，从不同角度、不同距离，拍下了不同片段，上传到 YouTube 上。那么，有没有可能，让计算机自动挑出这些片段，然后重新剪辑成高质量的完整演唱会影像呢？这项大工程有许多问题，等着廖弘源研究团队一一克服。他们先用深度学习技术，让计算机分辨影像中的不同对象（歌手、舞台、乐器、观众等），接着再用另一套模式（Error-Weighted Deep Cross-Correlation Model, EW-Deep-CCM）对影片的每一个镜头进行分类，辨认出是远景、中景、近景、或是特写。然后还要比对音讯，整理出影片的正确时间顺序。最后，才依照顺序、分镜逻辑、和情绪铺陈，组合出最佳的影片。
技术分享图片

为了「教」计算机分析这些信息，廖弘源笑称，自己看了无数的篮球影片，从不会打球变成了战术大师；看了几百场演唱会，也让他从音痴化身成音乐总监。受访时，廖弘源神采奕奕地谈着这些研究，言谈中除了自豪，更多的是一种身为「科学家」的使命感，强调无论做什么研究，要当具有开创性的「科学家」，而不只是依循既定方法的「工程师」。人类持续进步，计算机也是。我们过去总认为，计算机是工具，只能帮我们处理机械化的工作。但廖弘源博士两个最新研究之中，都包含着非常复杂的深度学习运算技术，若研发成熟后，人工智能在影片处理上的技巧，将会突飞猛进。或许，「计算机艺术家」诞生的一天，指日可待！
技术分享图片

计算机来当球赛战术分析员看看它们怎么演算的

标签：computer 超过才有计划探讨识别 ofo col 包含

原文地址：http://blog.51cto.com/13373212/2325451

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

计算机来当球赛战术分析员 看看它们怎么演算的

计算机来当球赛战术分析员看看它们怎么演算的