5赞

如何有效地将pos_tag_sents()应用于pandas数据帧

作者：手机用户2402851155 | 2023-09-07 11:06

如何解决《如何有效地将pos_tag_sents()应用于pandas数据帧》经验，为你挑选了1个好方法。

如果您希望POS标记存储在pandas数据帧中的文本列,每行1个句子,则SO上的大多数实现都使用apply方法

dfData['POSTags']= dfData['SourceText'].apply(
                 lamda row: [pos_tag(word_tokenize(row) for item in row])

NLTK文档建议使用pos_tag_sents()来有效标记多个句子.

这是否适用于这个例子中,如果是将代码那样改变简单pso_tag以pos_tag_sents或不NLTK意味着段落的文本来源

正如评论中所提到的那样,pos_tag_sents()目的是每次都减少负载的负载,但问题是如何做到这一点并仍然在pandas数据帧中产生一个列？

链接到示例数据集20kRows

1> alvas..：

输入

$ cat test.csv 
ID,Task,label,Text
1,Collect Information,no response,cozily married practical athletics Mr. Brown flat
2,New Credit,no response,active married expensive soccer Mr. Chang flat
3,Collect Information,response,healthy single expensive badminton Mrs. Green flat
4,Collect Information,response,cozily married practical soccer Mr. Brown hierachical
5,Collect Information,response,cozily single practical badminton Mr. Brown flat

TL; DR

>>> from nltk import word_tokenize, pos_tag, pos_tag_sents
>>> import pandas as pd
>>> df = pd.read_csv('test.csv', sep=',')
>>> df['Text']
0    cozily married practical athletics Mr. Brown flat
1       active married expensive soccer Mr. Chang flat
2    healthy single expensive badminton Mrs. Green ...
3    cozily married practical soccer Mr. Brown hier...
4     cozily single practical badminton Mr. Brown flat
Name: Text, dtype: object
>>> texts = df['Text'].tolist()
>>> tagged_texts = pos_tag_sents(map(word_tokenize, texts))
>>> tagged_texts
[[('cozily', 'RB'), ('married', 'JJ'), ('practical', 'JJ'), ('athletics', 'NNS'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('flat', 'JJ')], [('active', 'JJ'), ('married', 'VBD'), ('expensive', 'JJ'), ('soccer', 'NN'), ('Mr.', 'NNP'), ('Chang', 'NNP'), ('flat', 'JJ')], [('healthy', 'JJ'), ('single', 'JJ'), ('expensive', 'JJ'), ('badminton', 'NN'), ('Mrs.', 'NNP'), ('Green', 'NNP'), ('flat', 'JJ')], [('cozily', 'RB'), ('married', 'JJ'), ('practical', 'JJ'), ('soccer', 'NN'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('hierachical', 'JJ')], [('cozily', 'RB'), ('single', 'JJ'), ('practical', 'JJ'), ('badminton', 'NN'), ('Mr.', 'NNP'), ('Brown', 'NNP'), ('flat', 'JJ')]]

>>> df['POS'] = tagged_texts
>>> df
   ID                 Task        label  \
0   1  Collect Information  no response   
1   2           New Credit  no response   
2   3  Collect Information     response   
3   4  Collect Information     response   
4   5  Collect Information     response   

                                                Text  \
0  cozily married practical athletics Mr. Brown flat   
1     active married expensive soccer Mr. Chang flat   
2  healthy single expensive badminton Mrs. Green ...   
3  cozily married practical soccer Mr. Brown hier...   
4   cozily single practical badminton Mr. Brown flat   

                                                 POS  
0  [(cozily, RB), (married, JJ), (practical, JJ),...  
1  [(active, JJ), (married, VBD), (expensive, JJ)...  
2  [(healthy, JJ), (single, JJ), (expensive, JJ),...  
3  [(cozily, RB), (married, JJ), (practical, JJ),...  
4  [(cozily, RB), (single, JJ), (practical, JJ), ...

在龙:

首先,您可以将Text列提取到字符串列表:

texts = df['Text'].tolist()

然后你可以应用这个word_tokenize功能:

map(word_tokenize, texts)

请注意,@ Boud的建议几乎相同,使用df.apply:

df['Text'].apply(word_tokenize)

然后将标记化的文本转储到字符串列表的列表中:

df['Text'].apply(word_tokenize).tolist()

然后你可以使用pos_tag_sents:

pos_tag_sents( df['Text'].apply(word_tokenize).tolist() )

然后将列添加回DataFrame:

df['POS'] = pos_tag_sents( df['Text'].apply(word_tokenize).tolist() )

您的“ TL; DR”比“ In Long”版本长：)

推荐阅读

程序员
Python Pandas:String包含但不包含

如何解决《PythonPandas:String包含但不包含》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？

如何解决《为什么PHP允许在一种情况下将文字传递给pass-by-reference参数而不允许其他情况？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在我调用delete,c ++之后仍然可以访问值

如何解决《在我调用delete,c++之后仍然可以访问值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使AutoMoqCustomization使用Strict MockBehavior？

如何解决《如何使AutoMoqCustomization使用StrictMockBehavior？》经验，为你挑选了0个好方法。 ... [详细]
程序员
与dplyr和所有的奇怪

如何解决《与dplyr和所有的奇怪》经验，为你挑选了1个好方法。 ... [详细]
程序员
处理回归(机器学习)中的未分配(null)特征值？

如何解决《处理回归(机器学习)中的未分配(null)特征值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在C中的char数组中添加char/int？

如何解决《如何在C中的char数组中添加char/int？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从VSTS版本管理部署WebSite构建到Azure

如何解决《从VSTS版本管理部署WebSite构建到Azure》经验，为你挑选了2个好方法。 ... [详细]
程序员
iOS9"游戏中心无法识别此游戏."

如何解决《iOS9"游戏中心无法识别此游戏."》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何将我的远程git存储库还原为某个提交？

如何解决《如何将我的远程git存储库还原为某个提交？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将\ in(是集合的成员)表示法添加到qplot中

$将\ in(是集合的成员)表示法添加到qplot中$

如何解决《将\in(是集合的成员)表示法添加到qplot中》经验，为你挑选了1个好方法。 ... [详细]
程序员
null和undefined不一致的比较

如何解决《null和undefined不一致的比较》经验，为你挑选了1个好方法。 ... [详细]
程序员
deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？

如何解决《deleteRowsAtIndexPaths:滑动删除行永远不会释放单元格？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用Java加载纸莎草uml模型？

如何解决《如何使用Java加载纸莎草uml模型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何搜索有人用git更改的字符串？

如何解决《如何搜索有人用git更改的字符串？》经验，为你挑选了0个好方法。 ... [详细]
程序员
BouncyCastle现在更新了pgp密钥,导致校验和不匹配错误

如何解决《BouncyCastle现在更新了pgp密钥,导致校验和不匹配错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
将SEXP从R转换为C++中的字符串向量

如何解决《将SEXP从R转换为C++中的字符串向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#6 null传播当object为null时设置的值

如何解决《C#6null传播当object为null时设置的值》经验，为你挑选了2个好方法。 ... [详细]
程序员
iOS Swift:从两个Int创建Float值

如何解决《iOSSwift:从两个Int创建Float值》经验，为你挑选了1个好方法。 ... [详细]
程序员
寻找对应于最小特征值的特征向量

如何解决《寻找对应于最小特征值的特征向量》经验，为你挑选了1个好方法。 ... [详细]

手机用户2402851155

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章