当前位置:  开发笔记 > 编程语言 > 正文

准备培训数据的一般框架?

如何解决《准备培训数据的一般框架?》经验,为你挑选了0个好方法。

作为计算语言学的学生,我经常进行机器学习实验,我必须从各种不同的资源准备训练数据,如原始或注释文本语料库或语法树库.对于每个新任务和每个新实验,我编写程序(通常使用Python,有时是Java)来提取我需要的功能和值,并将数据从一种格式转换为另一种格式.这通常导致非常大量的非常大的文件和大量的小程序处理它们以获得某些机器学习框架的输入(如Weka的arff文件).

人们需要非常有条理地处理这个问题和计划,并且要小心谨慎,不要错过大量数据中的任何重要特性,例外或错误.良好的软件设计原则,如设计模式或重构范例,对于这些任务来说并不是很重要,因为安全性,可维护性或可持续性等问题并不重要 - 一旦程序成功处理了数据,就不再需要它了.到目前为止,我甚至已经停止了在Python代码和程序中使用类或函数的简单程序方式.下一个实验将需要具有独特特征和不同格式的不同数据集,以便无论如何都可能必须从头开始编程.到目前为止,我的经历是' 将80-90%的项目时间花在准备培训数据的任务上并不罕见.小时和日子只考虑如何从一种数据格式到另一种数据格式.有时,这可能会变得非常令人沮丧.

好吧,你可能猜到我有点夸张,甚至有目的,但我很肯定你理解我想说的话.实际上,我的问题是:

是否有任何通用框架,架构,最佳实践来处理这些任务?在优化设计的情况下,我希望能够重复使用多少代码?

推荐阅读
女女的家_747
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有