专访POWER 8编程挑战赛选手吴亮：集众家之长，激发算法性能极限

作者：和谐啄木鸟 | 2021-08-15 01:29

“2014POWER8极限性能挑战赛”第一期正在火热进行中，目前已有数百名开发者报名参赛。为了让更多的开发者了解大赛进展，日前，我们专访了其中一位参赛选手吴亮，希望通过他的经历，吸引更多技术达人参与到其中

9月23日，IBM和CSDN联合宣布“2014 POWER8 极限性能挑战赛”正式启动。此次大赛主要面向广大CSDN注册开发者，大赛以云计算的方式为开发者提供了POWER8开发环境，开发者利用POWER8的特性，基于不同场景进行应用开发。此次大赛，不仅使更多的开发者充分利用了POWER8，也为开发者、技术达人提供一个展示自我的舞台。

正如大赛发布仪式上，IBM大中华区副总裁侯淼所言，之所以要支持这样一个大赛，目的就是希望吸引更多的开发者去开发一些新的算法，把整个POWER 8引擎的能力激活开来。

“U Can U Up”是这次挑战赛的口号，开发者可以通过登陆注册、申请资源、完成挑战，主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目，采用月度赛制对参赛者进行排名评定。

第一期的挑战题目为“博客反垃圾”，具体任务为CSDN提供海量的博文数据，并按特定比率混入垃圾文章，参赛者需开发相应的系统将垃圾博文从中抽取出来。需要说明的是，大赛主要考察程序的是算法的正确率及处理速度，对开发语言、开发工具并不进行限定。

到目前为止，已经有数百名开发者报名并参加了此次大赛，为了让更多的开发者了解此次大赛的进展情况，日前，我们专访了其中一位参赛选手南京烽火通信公司研究员吴亮，希望通过他的参赛经历，吸引更多的技术达人参与到大赛之中。如果你看过他的回答后，还是感觉不过瘾，那么就赶快点击下面的链接，报名挑战吧！

立即报名：

http://reg.powerlinux.csdn.net/cview/reg/?project_id=973&identy_id=1011

1. 可否介绍一下你的开发经历？目前，主要关注哪些技术领域？

吴亮：目前，我主要关注的是数据挖掘领域，其他相关领域，如云计算、数据库、数据结构、编程开发等，也略有了解。记得当初，我为了能够更快的实现算法逻辑，一口气就把《算法导论》全部看完了，这些经历也让我印象深刻。

2. 区分垃圾ID数据和正常ID数据的核心关键是什么？可否借此展开描述一下所设计算法的基本思路？

吴亮： 无论是区分什么事物，核心都是特征——各个事物，都有各自不同的特征。真正的问题是能将他们区分开来的特征是什么？又会在哪里体现出来？对此，我的答案是“主题”，垃圾博文的内容主题和正常博文的主体不同，所使用的词汇也将不同，通过分析这些不同点，可以有效区分正常数据和垃圾数据。

3. 这一算法设计思路，主要用到了什么计算模型？有无独特的创新亮点？

吴亮： 如果说分类的模型，最接近的是贝叶斯模型。贝叶斯的方法，是一种以动态模型为研究对象的时间序列预测方法。它做分析的模式是：先验信息+总体分布信息+样本信息→后验分布信息，这一过程中，不仅利用了前期的数据信息，还加入了决策者的经验和判断等信息，并将客观因素和主观因素结合起来，对异常情况的发生具有较多的灵活性。

至于创新点，我感觉没必要提，毕竟正确率还不到60%，就算创新也是创错了。

4. 相对于其他方式的设计，之所以选择这一模型，主要出于什么考虑？是否还有继续优化的可能？

吴亮： 在设计方案的时候，我只是考虑了正确率，在方法确定之后才去考虑的性能优化。在我开始做的时候其实没什么理由，就是直觉，我相信自己的直觉。当然，如果实在需要一个原因的话，我也可以现编一个，不过最终还靠的是直觉。

5. 基于这一思路的算法设计，能否充分发挥IBM Power8的并发计算优势？信心来自于哪里？

吴亮： 起初设计算法时，“并行”并不在我得考虑之内，但这个算法其实是可以并行化的，因为它不仅能对不同的博客进行打分，使得任务相互之间不造成影响；也能够充分发挥 Power 8的优势，激发它的极限性能。

6. 对于IBM Power 8，你最关注的技术要点是什么？能否谈谈对未来这一领域技术趋势的看法？

吴亮： 我对这块技术了解的并不多，所以不便多谈。其实，我们现在主要使用的是分布式计算、hadoop、hbase、hive等技术。

7. 对于多线程及并发编程技术的发展，你怎么看？你认为还有哪些可以改进的方面？

吴亮： 我感觉多线程这块技术，在数据量较少的时候可能会比分布式计算要强，不过，我很清楚，这是未来的趋势。

8. 参加这次算法挑战赛的感受如何？对这一活动有什么好的建议？

吴亮：非常感谢这次比赛，尽管在某些方面举办方准备的不够充分。不过随着赛程的进行，这些问题都已经很好的解决了。至于算法方面，我建议可以考虑博客本身特征之外的关联特征，或许可称之为“用户反馈”，就如同“协同过滤”一样，能避免很多诸如知识维护、特征提取等问题。还有，就是要有Boosting的思想，集众家之长——保持理性，不要幻想着一个算法解决所有问题。

参赛指南

一、具体的参赛方式及流程如下：

按特定比率混合了垃圾博文和正常博文，参赛者需要编写算法将垃圾博客的ID分离出来；
参赛者可以使用任意开发语言完成挑战；
数据源存放位置：根目录下blog文件夹。

二、评选标准主要有四个方面：

漏判率越低越好；
错判率越低越好；
正确率越高越好；
程序运行时间。

三、参赛选手测试完成之后，需要提交：

垃圾博客的ID；
源代码；
程序运行时间截图。

推荐阅读

程序员
TLS变量上的"非常线程局部引用常规符号"错误

如何解决《TLS变量上的"非常线程局部引用常规符号"错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用BouncyCastle和GnuPG 2.1的`pubring.kbx`文件

如何解决《使用BouncyCastle和GnuPG2.1的`pubring.kbx`文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Null检查Linq中的String.ToLower表达式

如何解决《Null检查Linq中的String.ToLower表达式》经验，为你挑选了2个好方法。 ... [详细]
程序员
控制图例中的行数

如何解决《控制图例中的行数》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法ping泊坞窗容器

如何解决《无法ping泊坞窗容器》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何阻止\关闭字符串

如何解决《如何阻止\关闭字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
将vanilla对象转换为类？

如何解决《将vanilla对象转换为类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装rJava

如何解决《安装rJava》经验，为你挑选了3个好方法。 ... [详细]
程序员
在JavaScript中使用两种方法散列JSON字符串以在URL中使用

如何解决《在JavaScript中使用两种方法散列JSON字符串以在URL中使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Spring Data Mongo中设置自定义转换器

如何解决《在SpringDataMongo中设置自定义转换器》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows上为PHP安装PDO驱动程序？

如何解决《如何在Windows上为PHP安装PDO驱动程序？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么运行时要构造决策树mnlog(n)？

如何解决《为什么运行时要构造决策树mnlog(n)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Singleton模式的Android Volley错误

如何解决《使用Singleton模式的AndroidVolley错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法截断字段数据

如何解决《有没有办法截断字段数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在vim中将命令的输出打印到新窗口

如何解决《如何在vim中将命令的输出打印到新窗口》经验，为你挑选了1个好方法。 ... [详细]
程序员
'缺少PFX或证书+私钥.' 在https socket.io中

如何解决《'缺少PFX或证书+私钥.'在httpssocket.io中》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何让kestrel Web服务器监听非localhost请求？

如何解决《如何让kestrelWeb服务器监听非localhost请求？》经验，为你挑选了3个好方法。 ... [详细]
程序员
更改ui.bootrap的工具提示箭头的颜色(附带的plunker)

如何解决《更改ui.bootrap的工具提示箭头的颜色(附带的plunker)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Stanford NER Tagger在NLTK

如何解决《StanfordNERTagger在NLTK》经验，为你挑选了1个好方法。 ... [详细]
程序员
Phaser:如何在预加载后加载资产？

如何解决《Phaser:如何在预加载后加载资产？》经验，为你挑选了1个好方法。 ... [详细]

和谐啄木鸟

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

专访POWER 8编程挑战赛选手吴亮：集众家之长， 激发算法性能极限

专访POWER 8编程挑战赛选手吴亮：集众家之长，激发算法性能极限