以最明显的方式安排信件？

作者：虎仔球妈_459 | 2023-07-11 15:04

如何解决《以最明显的方式安排信件？》经验，为你挑选了1个好方法。

我有一些带有一些字符的字符串,我正在寻找这些字符的组织,以便它是最可能的.

例如,如果我有字母"ascrlyo",那么有些安排会比其他安排更加明显.以下可能获得"高分":

可怕的

如果以下可能获得低分:

oascrly yrlcsoa

我可以使用一个简单的算法吗？或者更好的是,Python功能实现了这一目标？

谢谢!

1> Colonel Pani..：

首先解决一个更简单的问题:一个给定的单词是否可以发音？

机器学习"监督学习"在这里可能是有效的.在字典单词和加扰单词的训练集上训练二进制分类器(假设加扰的单词都是不可发音的).对于功能,我建议计算双字母和三元组.我的理由是:'tns'和'srh'等不可发音的三字卦在词典中很少见,尽管每个字母都是常见的.

我们的想法是,经过训练的算法将学习将具有任何罕见三元组的单词分类为不可发音的单词,并且将仅具有共同三元组的单词分类为可发音的单词.

这是scikit-learn http://scikit-learn.org/的实现

import random
def scramble(s):
    return "".join(random.sample(s, len(s)))

words = [w.strip() for w in open('/usr/share/dict/words') if w == w.lower()]
scrambled = [scramble(w) for w in words]

X = words+scrambled
y = ['word']*len(words) + ['unpronounceable']*len(scrambled)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

text_clf = Pipeline([
    ('vect', CountVectorizer(analyzer='char', ngram_range=(1, 3))),
    ('clf', MultinomialNB())
    ])

text_clf = text_clf.fit(X_train, y_train)
predicted = text_clf.predict(X_test)

from sklearn import metrics
print(metrics.classification_report(y_test, predicted))

它的准确率为92%.无论如何,鉴于可发性是主观的,这可能会得到它的好处.

                 precision    recall  f1-score   support

      scrambled       0.93      0.91      0.92     52409
           word       0.92      0.93      0.93     52934

    avg / total       0.92      0.92      0.92    105343

它同意你的例子:

>>> text_clf.predict("scaroly crasoly oascrly yrlcsoa".split())
['word', 'word', 'unpronounceable', 'unpronounceable']

对于好奇,这里有10个混乱的单词,它可以分类:

moro garapm ocenfir onerixoatteme arckinbo raetomoporyo bheral accrene cchmanie suroatipsheq

最后10个词典词被错误分类为不可启动的:

ilch tohubohu usnea halfpaced pyrostilpnite lynnhaven cruel enure moldproof piecemeal

推荐阅读

程序员
在Java 8中转换lambdas

如何解决《在Java8中转换lambdas》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用loopbackjs添加嵌套的远程方法

如何解决《使用loopbackjs添加嵌套的远程方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
添加操作而不将结果更改为重构标记

如何解决《添加操作而不将结果更改为重构标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gitlab CI gradle依赖缓存

如何解决《GitlabCIgradle依赖缓存》经验，为你挑选了2个好方法。 ... [详细]
程序员
设置指向nullptr的指针会影响指向同一地址的其他指针吗？

如何解决《设置指向nullptr的指针会影响指向同一地址的其他指针吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gulp,Reactify和Babelify没有一起变换

如何解决《Gulp,Reactify和Babelify没有一起变换》经验，为你挑选了1个好方法。 ... [详细]
程序员
Webpack注入脚本来索引生产中的html文件

如何解决《Webpack注入脚本来索引生产中的html文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
Java泛型 - 擦除概念

如何解决《Java泛型-擦除概念》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用gawk多次通过？

如何解决《如何使用gawk多次通过？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这些ES6导入方法有什么区别？

如何解决《这些ES6导入方法有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ember Fastboot Jquery

如何解决《EmberFastbootJquery》经验，为你挑选了1个好方法。 ... [详细]
程序员
ScalaMock:如何模拟/存根方法每次调用返回不同的值？

如何解决《ScalaMock:如何模拟/存根方法每次调用返回不同的值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在android中分享APK通过分享选项

如何解决《在android中分享APK通过分享选项》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么许多例子在Matplotlib/pyplot/python中使用"fig,ax = plt.subplots()"

如何解决《为什么许多例子在Matplotlib/pyplot/python中使用"fig,ax=plt.subplots()"》经验，为你挑选了3个好方法。 ... [详细]
程序员
非法动态参考

如何解决《非法动态参考》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用管道命令忽略Bash脚本中的HUP信号

如何解决《使用管道命令忽略Bash脚本中的HUP信号》经验，为你挑选了1个好方法。 ... [详细]
程序员
嵌套 - 被抄送的项目 - 范围澄清？

如何解决《嵌套-被抄送的项目-范围澄清？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Miminum对Google tensorflow图像分类器的要求

如何解决《Miminum对Googletensorflow图像分类器的要求》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何停止Java或Hibernate缓存

如何解决《如何停止Java或Hibernate缓存》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular UI Router单独的文件

如何解决《AngularUIRouter单独的文件》经验，为你挑选了0个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章