不了解不同算法之间计算复杂性的差异

作者：linjiabin43 | 2023-09-06 13:22

如何解决《不了解不同算法之间计算复杂性的差异》经验，为你挑选了1个好方法。

我目前正在leetcode.com上做一些编码问题,并且由于输出相同结果的两个算法之间的计算时间差异而难以接受.

问题:给定一个字符串数组字,找到length(word [i])*length(word [j])的最大值,其中两个字不共享公共字母.您可以假设每个单词仅包含小写字母.如果不存在这两个单词,则返回0.

在最低限度,人们需要比较字符串对的每个组合,以便计算答案.我觉得bitwise更快/更有效率,但我选择忽略它为了这个问题.

您可以在本文的底部找到我正在使用的测试用例单词列表.

算法1:

curr_max=0
for i in range(0,len(words)):
    for j in range(0,len(words)):
        if i

这个算法本质上是一个嵌套的for循环,它比较了每个可能的单词组合,如果不是"if i",它将包括双重计数和自身计数.

算法2:

curr_max = 0
while words:
    curr_word = set(words[0])
    curr_len = len(words[0])
    words = words[1:]
    for word in words:
        for char in curr_word:
            if char in word:
                break
        else:
            curr_max = max(curr_max, curr_len*len(word))
print(curr_max)


该算法基本上将列表中的第一个单词与所有其他单词进行比较,然后将其从列表中删除并重复该过程.它大约需要0.02秒,大约快4倍.我很难理解为什么差异如此之大.在此先感谢您的帮助!

我用来比较时间的输入是这样的:

words=["eedfdddadbcc","acdadecebafaebaec","dfde","ececbefe","bbafebbeccbddddbd","eafeffddbbbf","cbd","abadeaddfbcfbadb","ffdcacaebbeaa","fbadcfeede","bdcefdbfec","bbadfccdfebefd","dbefdfabededb","cbbccdecfbbe","abaeeecdbecebafedbfee","fbefbdfc","fffafb","bfadbdefbfedbddff","cbccbfdadbfe","bacaafecbbfaae","fcbffdbefcfbccd","fefaadfaaafdfbdaff","ecabaff","ccbdefcdcfac","bbbfafbffcefbc","edecefa","bcdfbcebabae","aaefecfcbbccfaeeaf","beaabaaeaebef","adfac","acedfdabccebc","efbfbef","bfccadbcbcfcdabfa","ffcaddbcf","dfae","ccadeeebeaabddebcadec","babaa","ebbdbaabddfdddad","fafaddbaebdaa","eeeeddadedfe","effbca","abcddfa","cbadcfeffeaaeecbbfe","ceaabcfaaaefeeadf","acecadddde","ece","dc","bfafdefbbdafacdcfb","fbdcad","dbaaffcdbcbdea","baaee","bebed","beaedceceaa","eacbcfdbcefbaddffcac","acddaedacfeedffad","efebff","efcbf","cdfffffaacfacafb","adacaceea","fceeffededbcfbfaaf","eafaeffcbfde","debadcddbdbabefdbe","ef","eeeeabfbaabddaecb","eeadcdcdaacaabe","ebcbffdefafdcbcebec","eb","adedefbaabfcefbea","ddceabfddaaefcea","ddffb","fdadfac","de","cbcdcbddcdabeb","ccffeeafbbbf","ccba","dab","bbdbeefdbef","cbec","ffcbefdbfdacdbdbf","adfad","ceacdcbfbdbbaebbd","ecfeaefff","ddbbdaefddeebd","eeeee","abdadc","eafecdbdef","aeedaeeaebaaeecdd","dddeebcbdea","bcaadedacb","ebdeadddcafa","ecbdbcbfccbdffaef","fddcffbfffa","accbdcfcedeabeab","cfbbefbddcaeecfbfacc","efffdaacbafeecdad","aaadfa","efeccbabdefaf","defebaddaafdcd","ecebcaacdaccaddcfeee","fdbbfecaffeafaa","bafccdbea","caa","deedefdeccead","bbfbfeaeddacfacea","daaefbbcbcdbfbfdda","aceed","cfeadadadbcff","eaefcdca","cefebdbaafeabdbdeaafd","abec","aeececad","cfeabcbaeaebdbcaada","aac","ebabffeb","fa","cf","dcebedefc","dbaedceecf","ffebaedafccceb","faefbeacaddefbe","eeadbfabfbbbfaeffaeea","affdecaca","ccfdcbdefcdfaddbbeaed","bc","feafaaabaceade","bebdfbbad","eeacaefaddacac","fff","aeddcd","ccffbabbdfc","ecddbcdeecdfbbb","debdbcdcafdcd","cfaebaeddbbd","efdada","becdccaeffeedcadbdd","feedbacc","cbbeebcdad","bfdcbdfdbcceadded","cfdbfdddafadadddcba","bcedeaeeaac","ffdcfccffdfffaebf","afffceaaadbbedfdd","faaeebdfbfefddebed","eedafbddeeaaadcdeaccc","eeceadafa","ebcfaccabea","eebdbbedcaedcbdcfaba","ecfcadaebacbdfdccebe","cbbabdadaee","cfeea","dec","cfedcbaabbaef","aacdabcbf","dfdbacadbebeedcd","bccccfdcdfe","cfcacdbcdccddcadce","dafafeccfaccaadeabbf","eaffaaffefccde","bbfbddccfda","fbdbbbbfbe","eafbcafbdbead","edbcdcefdc","fe","aafdcabce","ddafedceddcdcbfbcafe","dabcafbcfafeeadbbbef","beeaacd","cadeabebdbcfbbdfe","ecfefbfbbfa","fedacafcc","bcdcefecbcebaeeccdbd","fefde","cafba","bdabeaabbdbbbccecebda","dfeaadbeaaeefdfbed","dbaecde","cfbdfffbdeeeeb","fc","decadcacfaabca","cebbdff","badabbddcfed","fcce","fedfadefcf","acfccfbfcda","debfc","bebafeaeffe","ceaefbbcefacbbacb","cebbaeb","cadedfdafecdfb","bfefdfbaceddfcbade","cefeefaeddafbbdcade","faceadcefbffadb","cfbacafae","dfbfadfdccedbcbeaae","dbbccdddaf","ebbcbcebdddcedcfdcfaa","ccedffbcdbaedfaeb","ccfeaceaaaaeee","faade","afaaacaecbffdbadcbcd","cebfbbefbbdabbbffea","cdaadba","bbefdcacaaadbbbdedec","adabfbebdb","fcfefadcbadaacbdcfdbb","adddadebfc","fb","ecfebaacbdabece","dabacfdecfe","eeeecc","eabbe","fcdffababd","aafdbbcfdecbccca","efebaaadfecccecaa","cffefdbf","bcbdd","eaaccdcfdbbbcf"]


更新OP以帮助人们帮助我解决这个问题!
我现在用这个生成单词:

words = [''.join([choice('abcdefghijklmnopqrstuvwxyz') for _ in range(randrange(2, 22))]) for _ in range(250)]


我正在执行第一个算法:

t1=time.time()
curr_max=0
for i in range(0,len(words)):
    for j in range(0,i):
        curr_word=set(words[i])
        other_word=words[j]
        for char in curr_word:
            if char in other_word:
                break
        else:
            curr_max=max(curr_max,len(words[i])*len(other_word))
print(curr_max)
t0=time.time()
print(t0-t1)


我看到的结果是在0.1秒范围内.

我使用的第二个算法:

t1=time.time()
curr_max = 0
while words:
    curr_word = set(words[0])
    curr_len = len(words[0])
    words = words[1:]
    for word in words:
        for char in curr_word:
            if char in word:
                break
        else:
            curr_max = max(curr_max, curr_len*len(word))
print(curr_max)
t0=time.time()
print(t0-t1)


我看到0.04-0.05秒范围内的结果.任何人都可以复制这个吗？


1> Martijn Piet..：
两种算法看起来都像是相同的工作量.两者都重新创建了这个itertools.combinations()功能.但是,第一种方法更频繁地重新创建集合,并执行额外的n**2个i < j测试(对于n个单词)!

你正在创建超过2种组合的len(n),所以n!/(n  -  2)!(见维基百科),这比n**2要少得多:

>>> import math
>>> n = 250
>>> math.factorial(n) / (math.factorial(2) * math.factorial(n - 2))
31125.0
>>> n ** 2
62500
>>> n ** 2 - (math.factorial(n) / (math.factorial(2) * math.factorial(n - 2)))
31375.0


因此,对于您的特定情况,算法#1执行的循环次数是算法#2的两倍多.随着n的增加,产品除以组合的数量接近2,所以它总是至少做两倍的工作.

接下来,您words[0]只在算法#2中创建一组,但是您为算法#1的每个内循环执行此操作:

# algorithm #1
for ...  # current word loop
    for ...   # other word loop
        set(words[i])

# algorithm #2
while    # current word loop
    set(words[0])
    for ...   # other word loop


正是这些差异导致它变慢; 创建(N超过2)集与仅N集可能会使您在这里的大部分性能成本.

为了进行适当的比较,你应该使用多次重复测试的timeit模块,确保使用最精确的时钟来测量花费的时间并禁用Python垃圾收集器(因此它不会干扰).我已经包含了一个随机单词列表,对于破坏性算法(你的#2),我不得不每次克隆列表,为此我通过减去相同数量的裸列表副本的时间进行补偿.

我跑的脚本:

from random import choice, randrange
from timeit import timeit

def naive_loop(words):
    curr_max=0
    for i in range(0,len(words)):
        for j in range(0,len(words)):
            if i

结果:

Naive: 1.8516130640055053
Destructive: 0.3646556100138696
Reduced set calls: 0.5927464940032223


因此,移动set()呼叫reduced_set_calls_loop()已经大大改善了第一个版本.通过更换减少循环的次数if i < j与for j in range(i):循环进一步降低了间隙:

>>> def reduced_iteration_loop(words):
...     curr_max=0
...     for i in range(0,len(words)):
...         curr_word=set(words[i])
...         for j in range(i):
...             other_word=words[j]
...             for char in curr_word:
...                 if char in other_word:
...                     break
...             else:
...                 curr_max=max(curr_max,len(words[i])*len(other_word))
...     return curr_max
...
>>> print('Reduced iteration:', timeit('reduced_iteration_loop(words)', 'from __main__ import reduced_iteration_loop, words', number=number))
Reduced iteration: 0.44450017900089733


令我惊讶的是,你的破坏性循环比使用更快itertools.combinations():

>>> from itertools import combinations
>>> def destructive_loop_empty(words):
...     while words:
...         curr_word, words = words[0], words[1:]
...         for word in words:
...             pass
...
>>> def empty_combinations(words):
...     for a, b in combinations(words, 2):
...         pass
...
>>> timeit('destructive_loop_empty(words[:])', 'from __main__ import destructive_loop_empty, words', number=1000)
0.324253979997593
>>> timeit('empty_combinations(words[:])', 'from __main__ import empty_combinations, words', number=1000)
0.5626872480061138


我们可以通过使用set disjunctions使您的算法#2更快,而不是单独测试每个字符.因为我们将重复测试单词,所以在字典中预先创建集合是有意义的,充当我们可以在测试时绘制的缓存.

最后,我们可以通过在字典中存储长度来创建非破坏性版本,并且只是循环遍历值(我们破坏字典):

def nondestructive_loop(words):
    curr_max = 0
    words = {w: (set(w), len(w)) for w in words}
    while words:
        curr_word, curr_word_length = words.popitem()[1]
        for other, other_length in words.values():
            if curr_word.isdisjoint(other):
                curr_max = max(curr_max, curr_word_length * other_length)
    return curr_max


这是我能做到的最快的:

>>> print('Nondestructive:', timeit('nondestructive_loop(words)', 'from __main__ import nondestructive_loop, words', number=number))
Nondestructive: 0.2944725830020616


另外削减20%.

因此,总而言之,直接在列表上进行迭代比从a生成索引range(),然后索引到列表中更快.差异足够大,值得你破坏列表(或字典)!

这也是itertools.combinations()变慢的原因; 它必须使用索引,因为它必须支持大于2的组合(这意味着你不能只从输入序列中删除).

推荐阅读

程序员
如何在Android Marshmallow中创建wifi网络共享热点？

如何解决《如何在AndroidMarshmallow中创建wifi网络共享热点？》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以使Realm Results类使用协议作为泛型吗？

如何解决《我可以使RealmResults类使用协议作为泛型吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在具有隐式参数的函数上调用Private

如何解决《如何在具有隐式参数的函数上调用Private》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么可以使std :: map找不到它的一个键？

如何解决《什么可以使std::map找不到它的一个键？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linq加入查询错误

如何解决《Linq加入查询错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？

如何解决《如何将预先填充的文本消息发送给特定(预期)Whats-App用户/用户？》经验，为你挑选了0个好方法。 ... [详细]
程序员
学习Netsuite

如何解决《学习Netsuite》经验，为你挑选了1个好方法。 ... [详细]
程序员
包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式

如何解决《包括头文件进行分析之后，请告诉我有关cppcheck的用途或工作方式》经验，为你挑选了1个好方法。 ... [详细]
程序员
JDBC是否在将日期插入Oracle DB之前调整日期？我该如何防止这种情况？

如何解决《JDBC是否在将日期插入OracleDB之前调整日期？我该如何防止这种情况？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在类"对象"中定义的==运算符在哪里？

如何解决《在类"对象"中定义的==运算符在哪里？》经验，为你挑选了2个好方法。 ... [详细]
程序员
有没有办法在babelify中关闭"超级之前不允许这样的规则"？

如何解决《有没有办法在babelify中关闭"超级之前不允许这样的规则"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Bootstrap 3无法在Symfony3中运行

如何解决《Bootstrap3无法在Symfony3中运行》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Javascript下载HTML5 mp4视频

如何解决《使用Javascript下载HTML5mp4视频》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在android中的数组列表中获取特定值的索引

如何解决《如何在android中的数组列表中获取特定值的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
在带有colspan和rowspan的表中重复

如何解决《在带有colspan和rowspan的表中重复》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装perl模块和复制整个文件夹有什么区别？

如何解决《安装perl模块和复制整个文件夹有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
@Bean和@Autowired之间的区别

如何解决《@Bean和@Autowired之间的区别》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将UTF-8数据与Latin1 MySQL数据库表中保存的相同数据进行比较

如何解决《如何将UTF-8数据与Latin1MySQL数据库表中保存的相同数据进行比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django/WSGI应用程序中的持久数据库连接

如何解决《Django/WSGI应用程序中的持久数据库连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Stream.limit在此代码段中没有按预期工作？

如何解决《为什么Stream.limit在此代码段中没有按预期工作？》经验，为你挑选了4个好方法。 ... [详细]

linjiabin43

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章