6赞

如何递归生成多字词？

作者：落单鸟人 | 2023-08-28 16:26

如何解决《如何递归生成多字词？》经验，为你挑选了1个好方法。

说我有一串话:'a b c d e f'.我想从这个字符串生成一个多字词的列表.

字顺序很重要.'f e d'不应从上面的例子中生成该术语.

编辑:此外,不应跳过单词. 'a c',或者'b d f'不应该生成.

我现在拥有的:

doc = 'a b c d e f'
terms= []
one_before = None
two_before = None
for word in doc.split(None):
    terms.append(word)
    if one_before:
        terms.append(' '.join([one_before, word]))
    if two_before:
        terms.append(' '.join([two_before, one_before, word]))
    two_before = one_before
    one_before = word

for term in terms:
    print term

打印:

a
b
a b
c
b c
a b c
d
c d
b c d
e
d e
c d e
f
e f
d e f

我如何使它成为一个递归函数,以便我可以为每个项传递一个可变的最大字数？

应用:

我将使用它来从HTML文档中的可读文本生成多字词.总体目标是对大型语料库(大约200万个文档)进行潜在的语义分析.这就是为什么保持单词顺序很重要(自然语言处理和诸如此类).

1> Patrick McEl..：

这不是递归的,但我认为它可以满足您的需求.

doc = 'a b c d e f'
words = doc.split(None)
max = 3          


for index in xrange(len(words)):    
    for n in xrange(max):
        if index + n < len(words):           
            print ' '.join(words[index:index+n+1])

这是一个递归解决方案:

def find_terms(words, max_words_per_term):       
    if len(words) == 0: return []
    return [" ".join(words[:i+1]) for i in xrange(min(len(words), max_words_per_term))] + find_terms(words[1:], max_words_per_term)


doc = 'a b c d e f'
words = doc.split(None) 
for term in find_terms(words, 3):
    print term

这里是递归函数,有些解释变量和注释.

def find_terms(words, max_words_per_term):   

    # If there are no words, you've reached the end. Stop.    
    if len(words) == 0:
        return []      

    # What's the max term length you could generate from the remaining 
    # words? It's the lesser of max_words_per_term and how many words 
    # you have left.                                                         
    max_term_len = min(len(words), max_words_per_term)       

    # Find all the terms that start with the first word.
    initial_terms = [" ".join(words[:i+1]) for i in xrange(max_term_len)]

    # Here's the recursion. Find all of the terms in the list 
    # of all but the first word.
    other_terms = find_terms(words[1:], max_words_per_term)

    # Now put the two lists of terms together to get the answer.
    return initial_terms + other_terms

推荐阅读

程序员
在运行时删除所有领域对象

如何解决《在运行时删除所有领域对象》经验，为你挑选了3个好方法。 ... [详细]
程序员
有没有办法在Windows cli中使用'COPY'命令(PostgreSQL)？

如何解决《有没有办法在Windowscli中使用'COPY'命令(PostgreSQL)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
QuickBlox v2.6 x通过Facebook for iOS登录

如何解决《QuickBloxv2.6x通过FacebookforiOS登录》经验，为你挑选了0个好方法。 ... [详细]
程序员
将R数据作为输入传递给html？

如何解决《将R数据作为输入传递给html？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法在Django 1.9+中解析'django.utils.log.NullHandler'

如何解决《无法在Django1.9+中解析'django.utils.log.NullHandler'》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否在Ruby中的BigDecimal中使用String或Integer

如何解决《是否在Ruby中的BigDecimal中使用String或Integer》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL BETWEEN命令不适用于大范围

如何解决《SQLBETWEEN命令不适用于大范围》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ruby - 如何从嵌套在哈希中的数组访问键

如何解决《Ruby-如何从嵌套在哈希中的数组访问键》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何理解React Native中"向Javascript发送事件"中的"ReactContext"

如何解决《如何理解ReactNative中"向Javascript发送事件"中的"ReactContext"》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用Require JS的angularJS App中的子资源完整性

如何解决《使用RequireJS的angularJSApp中的子资源完整性》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何支持使用UILabel自动调整UITableViewCell的大小

如何解决《如何支持使用UILabel自动调整UITableViewCell的大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在android studio中添加卫星视图？

如何解决《如何在androidstudio中添加卫星视图？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Python中安装VLC模块

如何解决《如何在Python中安装VLC模块》经验，为你挑选了2个好方法。 ... [详细]
程序员
在chrome新版本中打印隐藏部分的预览边距

如何解决《在chrome新版本中打印隐藏部分的预览边距》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用POST的基于Amazon AWS S3浏览器的上传 -

如何解决《使用POST的基于AmazonAWSS3浏览器的上传-》经验，为你挑选了1个好方法。 ... [详细]
程序员
在r中计数为零时按计数分组

如何解决《在r中计数为零时按计数分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用mysqli_fetch_assoc从mysql获取所有行并转换为JSON

如何解决《如何使用mysqli_fetch_assoc从mysql获取所有行并转换为JSON》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS Lambda函数不接受Twilio模块

如何解决《AWSLambda函数不接受Twilio模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
R小册子如何点击地图并添加一个圆圈

如何解决《R小册子如何点击地图并添加一个圆圈》经验，为你挑选了1个好方法。 ... [详细]
程序员
加载MySQLdb模块时出错:libmysqlclient.so.20:无法打开共享对象文件:没有这样的文件或目录

如何解决《加载MySQLdb模块时出错:libmysqlclient.so.20:无法打开共享对象文件:没有这样的文件或目录》经验，为你挑选了2个好方法。 ... [详细]

落单鸟人

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章