nltk自定义标记器和标记器

作者：爱唱歌的郭少文_ | 2023-06-27 14:42

如何解决《nltk自定义标记器和标记器》经验，为你挑选了1个好方法。

这是我的要求.我想以一种允许我实现以下内容的方式标记和标记段落.

应在段落中标识日期和时间,并将其标记为日期和时间

应识别段落中的已知短语并将其标记为CUSTOM

应该通过默认nltk的word_tokenize和pos_tag函数对其余内容进行标记化吗？

例如,跟随sentense

"They all like to go there on 5th November 2010, but I am not interested."

如果自定义短语是"我不感兴趣",则应按如下方式标记和标记化.

[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'), 
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','), 
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]

任何建议都会有用.

1> Fred Foo..：

正确的答案是编译以您想要的方式标记的大型数据集,然后在其上训练机器学习的块.如果这太耗费时间,那么简单的方法就是运行POS标记器并使用正则表达式对其输出进行后处理.获得最长的比赛是这里最难的部分:

s = "They all like to go there on 5th November 2010, but I am not interested."

DATE = re.compile(r'^[1-9][0-9]?(th|st|rd)? (January|...)( [12][0-9][0-9][0-9])?$')

def custom_tagger(sentence):
    tagged = pos_tag(word_tokenize(sentence))
    phrase = []
    date_found = False

    i = 0
    while i < len(tagged):
        (w,t) = tagged[i]
        phrase.append(w)
        in_date = DATE.match(' '.join(phrase))
        date_found |= bool(in_date)
        if date_found and not in_date:          # end of date found
            yield (' '.join(phrase[:-1]), 'DATE')
            phrase = []
            date_found = False
        elif date_found and i == len(tagged)-1:    # end of date found
            yield (' '.join(phrase), 'DATE')
            return
        else:
            i += 1
            if not in_date:
                yield (w,t)
                phrase = []

Todo:扩展DATEre,插入代码以搜索CUSTOM短语,通过匹配POS标签和令牌使其更加复杂,并决定是否5th应将其视为日期.(可能不是,所以过滤掉只包含序数的长度为1的日期.)

推荐阅读

程序员
为什么VS code中的问题匹配器不起作用？

如何解决《为什么VScode中的问题匹配器不起作用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python版本与json.dumps冲突

如何解决《python版本与json.dumps冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
递归放置的组件不显示

如何解决《递归放置的组件不显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Web组件中扩展元素时,"is"语法有什么意义？

如何解决《在Web组件中扩展元素时,"is"语法有什么意义？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Windows 10下访问2016年相当大的窗体边界太窄

如何解决《在Windows10下访问2016年相当大的窗体边界太窄》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python Pandas:String包含但不包含

如何解决《PythonPandas:String包含但不包含》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？

如何解决《为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在我调用delete,c ++之后仍然可以访问值

如何解决《在我调用delete,c++之后仍然可以访问值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使AutoMoqCustomization使用Strict MockBehavior？

如何解决《如何使AutoMoqCustomization使用StrictMockBehavior？》经验，为你挑选了0个好方法。 ... [详细]
程序员
与dplyr和所有的奇怪

如何解决《与dplyr和所有的奇怪》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理回归(机器学习)中的未分配(null)特征值？

如何解决《处理回归(机器学习)中的未分配(null)特征值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C中的char数组中添加char/int？

如何解决《如何在C中的char数组中添加char/int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从VSTS版本管理部署WebSite构建到Azure

如何解决《从VSTS版本管理部署WebSite构建到Azure》经验，为你挑选了2个好方法。 ... [详细]
程序员
iOS9"游戏中心无法识别此游戏."

如何解决《iOS9"游戏中心无法识别此游戏."》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将我的远程git存储库还原为某个提交？

如何解决《如何将我的远程git存储库还原为某个提交？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将\ in(是集合的成员)表示法添加到qplot中

$将\ in(是集合的成员)表示法添加到qplot中$

如何解决《将\in(是集合的成员)表示法添加到qplot中》经验，为你挑选了1个好方法。 ... [详细]
程序员
null和undefined不一致的比较

如何解决《null和undefined不一致的比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？

如何解决《deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Java加载纸莎草uml模型？

如何解决《如何使用Java加载纸莎草uml模型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何搜索有人用git更改的字符串？

如何解决《如何搜索有人用git更改的字符串？》经验，为你挑选了0个好方法。 ... [详细]

爱唱歌的郭少文_

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章