17赞

Apriori算法的Python实现

作者：落单鸟人 | 2021-08-15 01:33

Apriori算法是数据挖掘中频发模式挖掘的鼻祖，从60年代就开始流行，其算法思想也十分简单朴素，首先挖掘出长度为1的频繁模式，然后k=2将这些频繁模式合并组成长度为k的频繁模式，算出它们的频繁次数，而且要保证其所有k-1长度的子集也是频繁的，值得注意的是，为了避免重复，合并的时候，只合并那些前k-2个字符都相同，而k

Apriori算法是数据挖掘中频发模式挖掘的鼻祖，从60年代就开始流行，其算法思想也十分简单朴素，首先挖掘出长度为1的频繁模式，然后k=2

将这些频繁模式合并组成长度为k的频繁模式，算出它们的频繁次数，而且要保证其所有k-1长度的子集也是频繁的，值得注意的是，为了避免重复，合并的时候，只合并那些前k-2个字符都相同，而k-1的字符一边是少于另一边的。

以下是算法的Python实现：

__author__ = 'linfuyuan'
min_frequency = int(raw_input('please input min_frequency:'))
file_name = raw_input('please input the transaction file:')
transactions = []


def has_infrequent_subset(candidate, Lk):
    for i in range(len(candidate)):
        subset = candidate[:-1]
        subset.sort()
        if not ''.join(subset) in Lk:
            return False
        lastitem = candidate.pop()
        candidate.insert(0, lastitem)
    return True


def countFrequency(candidate, transactions):
    count = 0
    for transaction in transactions:
        if transaction.issuperset(candidate):
            count += 1
    return count


with open(file_name) as f:
    for line in f.readlines():
        line = line.strip()
        tokens = line.split(',')
        if len(tokens) > 0:
            transaction = set(tokens)
            transactions.append(transaction)
currentFrequencySet = {}
for transaction in transactions:
    for item in transaction:
        time = currentFrequencySet.get(item, 0)
        currentFrequencySet[item] = time + 1
Lk = set()
for (itemset, count) in currentFrequencySet.items():
    if count >= min_frequency:
        Lk.add(itemset)
print ', '.join(Lk)

while len(Lk) > 0:
    newLk = set()
    for itemset1 in Lk:
        for itemset2 in Lk:
            cancombine = True
            for i in range(len(itemset1)):
                if i < len(itemset1) - 1:
                    cancombine = itemset1[i] == itemset2[i]
                    if not cancombine:
                        break
                else:
                    cancombine = itemset1[i] < itemset2[i]
                    if not cancombine:
                        break
            if cancombine:
                newitemset = []
                for char in itemset1:
                    newitemset.append(char)
                newitemset.append(itemset2[-1])
                if has_infrequent_subset(newitemset, Lk) and countFrequency(newitemset, transactions) >= min_frequency:
                    newLk.add(''.join(newitemset))
    print ', '.join(newLk)
    Lk = newLk

推荐阅读

程序员
获取ESC-上最后一个命令的最后一个参数.ZSH Vim模式

如何解决《获取ESC-上最后一个命令的最后一个参数.ZSHVim模式》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Tomcat会将HEAD和GET请求的不同标头返回给我的RESTful API？

如何解决《为什么Tomcat会将HEAD和GET请求的不同标头返回给我的RESTfulAPI？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在c ++中初始化字符串的方法

如何解决《在c++中初始化字符串的方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
具有EntityType字段的Symfony 2.7 choice_attr

如何解决《具有EntityType字段的Symfony2.7choice_attr》经验，为你挑选了1个好方法。 ... [详细]
程序员
Yocto使用.bbappend文件来覆盖initramfs的默认init脚本的编写

如何解决《Yocto使用.bbappend文件来覆盖initramfs的默认init脚本的编写》经验，为你挑选了1个好方法。 ... [详细]
程序员
CMake缓存变量与全局属性:使用变量值的简单语法

如何解决《CMake缓存变量与全局属性:使用变量值的简单语法》经验，为你挑选了0个好方法。 ... [详细]
程序员
编辑Eclipse Javadoc $ {tags}变量

如何解决《编辑EclipseJavadoc${tags}变量》经验，为你挑选了0个好方法。 ... [详细]
程序员
Meteor CollectionFS - 在服务器上上传图像

如何解决《MeteorCollectionFS-在服务器上上传图像》经验，为你挑选了0个好方法。 ... [详细]
程序员
ServiceWorker注册失败:DOMException:仅允许安全源(请参阅:https://goo.gl/Y0ZkNV)

如何解决《ServiceWorker注册失败:DOMException:仅允许安全源(请参阅:https://goo.gl/Y0ZkNV)》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法隐藏子视图控制器中的标签栏

如何解决《无法隐藏子视图控制器中的标签栏》经验，为你挑选了0个好方法。 ... [详细]
程序员
Amazon SNS如何管理CloudWatch日志流以获取交付状态？

如何解决《AmazonSNS如何管理CloudWatch日志流以获取交付状态？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在UISearchController中使用UISegmentedControl

如何解决《在UISearchController中使用UISegmentedControl》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么list.append(x)比list + = l [x]更有效？

如何解决《为什么list.append(x)比list+=l[x]更有效？》经验，为你挑选了1个好方法。 ... [详细]
程序员
最终参数在哪里存储在匿名类实例中？

如何解决《最终参数在哪里存储在匿名类实例中？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用java中的REGEX从字符串解析浮点值

如何解决《如何使用java中的REGEX从字符串解析浮点值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PHP中以DD-MMM-YY格式获取实际日期？

如何解决《如何在PHP中以DD-MMM-YY格式获取实际日期？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在jquery中更改多个div位置

如何解决《在jquery中更改多个div位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS应用更新大小远大于应用大小

如何解决《iOS应用更新大小远大于应用大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
指定使用jar文件的通用文件路径

如何解决《指定使用jar文件的通用文件路径》经验，为你挑选了1个好方法。 ... [详细]
程序员
Windows批处理字符串替换在变量给出搜索字符串时不起作用

如何解决《Windows批处理字符串替换在变量给出搜索字符串时不起作用》经验，为你挑选了0个好方法。 ... [详细]

落单鸟人

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章