16赞

使用read.table()的麻烦,新行会创建不需要的空白字段

作者：农大军乐团_697 | 2023-09-08 14:09

如何解决《使用read.table()的麻烦,新行会创建不需要的空白字段》经验，为你挑选了1个好方法。

我刚刚开始使用R并尝试掌握一些内置函数.我正在尝试组织一个基本的FASTA文本文件,如下所示:

>ID1
AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC
>ID2
TCCAATTAAGTCCCTATCCAGGCGCTCCG
>ID3
GAACCGGAGAACGCTTCAGACCAGCCCGGAC

进入一个看起来像这样的表:

ID   Sequence
ID1  AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC
ID2  TCCAATTAAGTCCCTATCCAGGCGCTCCG
ID3  GAACCGGAGAACGCTTCAGACCAGCCCGGAC

或者至少以类似方式组织的事情.不幸的是,每当我尝试使用时read.table,我都被迫设置fill = TRUE,以避免以下错误:

> read.table("ReadingText.txt", header=F, fill=F, sep=">")
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
  line 2 did not have 2 elements

设置fill = TRUE无法解决问题,因为它只是引入了不需要的空白字段.我觉得我的问题是R想要将输入中的每个新行视为输出中的新行,而我希望它只在每个">"处开始一个新行并移动到下一列的输入的每个新行都有相同的行.

那么,你怎么能让这个工作？read.table只是错误的功能,试图这样做或是否有其他东西？另外,我真的很想在不使用任何软件包的情况下实现这一目标!我想要很好地掌握R中的内置函数.

感谢您花时间阅读本文并向我道歉,如果我在这里发布了错误的话.这是我第一次问什么.

1> Rich Scriven..：

使用read.table()或执行此操作需要一些棘手的后处理readLines().有一个函数read.fasta()在seqinr包,可以让你大部分的方式存在.然后我们将结果列表转换为数据框.

library(seqinr)
(fasta <- read.fasta("so.fasta", set.attributes = FALSE, as.string = TRUE, forceDNAtolower = FALSE))
# $ID1
# [1] "AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC"
#
# $ID2
# [1] "TCCAATTAAGTCCCTATCCAGGCGCTCCG"
#
# $ID3
# [1] "GAACCGGAGAACGCTTCAGACCAGCCCGGAC"

setNames(rev(stack(fasta)), c("ID", "Sequence"))
#    ID                         Sequence
# 1 ID1 AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC
# 2 ID2    TCCAATTAAGTCCCTATCCAGGCGCTCCG
# 3 ID3  GAACCGGAGAACGCTTCAGACCAGCCCGGAC

该文件so.fasta是

writeLines(">ID1
AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC
>ID2
TCCAATTAAGTCCCTATCCAGGCGCTCCG
>ID3
GAACCGGAGAACGCTTCAGACCAGCCCGGAC", "so.fasta")

注意: Pascal在评论中提出了一个很好的观点.当您的特定任务已存在工具时,请利用该工具并使用它.当有人已经麻烦地创建这个工具并在一个包中共享它以试图帮助其他用户试图解决这个问题时,实际上没有必要花时间尝试使用那些不适合这项工作的功能.同样的问题.

更新: 实际上,使用起来并不困难readLines(),只要你有一个漂亮的干净文件.这是一个仅使用基本函数的可能解决方案.

x <- readLines("so.fasta")
ids <- grepl("^>", x)
data.frame(ID = sub(">", "", x[ids]), Sequence = x[!ids])
#    ID                         Sequence
# 1 ID1 AGAATAGCCAGAACCGTTTCTCTGAGGCTTCC
# 2 ID2    TCCAATTAAGTCCCTATCCAGGCGCTCCG
# 3 ID3  GAACCGGAGAACGCTTCAGACCAGCCCGGAC

推荐阅读

程序员
零检查后发现无

如何解决《零检查后发现无》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在将鼠标悬停在父级上时设置子级元素的样式

如何解决《如何在将鼠标悬停在父级上时设置子级元素的样式》经验，为你挑选了1个好方法。 ... [详细]
程序员
同时使用ActiveMQ和RabbitMQ

如何解决《同时使用ActiveMQ和RabbitMQ》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么这两个字符串不相等？

如何解决《为什么这两个字符串不相等？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在c ++中将集合的元素插入向量

如何解决《无法在c++中将集合的元素插入向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用jQuery一次向许多不同的按钮添加确认对话框？

如何解决《如何使用jQuery一次向许多不同的按钮添加确认对话框？》经验，为你挑选了0个好方法。 ... [详细]
程序员
VS2015 LINQ在调试器监视窗口中

如何解决《VS2015LINQ在调试器监视窗口中》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SQL在字符串中反转使用混合的从左到右和从右到左的语言？

如何解决《使用SQL在字符串中反转使用混合的从左到右和从右到左的语言？》经验，为你挑选了0个好方法。 ... [详细]
程序员
用于连接django模型中数据的性能优化

如何解决《用于连接django模型中数据的性能优化》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法转换为泛型类型c#

如何解决《无法转换为泛型类型c#》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Azure Storage SDK与Django一起使用(并完全删除对django-storage的依赖)

如何解决《将AzureStorageSDK与Django一起使用(并完全删除对django-storage的依赖)》经验，为你挑选了0个好方法。 ... [详细]
程序员
函数错误从数字列表返回3个最大值

如何解决《函数错误从数字列表返回3个最大值》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何查找时钟的秒针是在更大的区域还是更小的区域

如何解决《如何查找时钟的秒针是在更大的区域还是更小的区域》经验，为你挑选了1个好方法。 ... [详细]
程序员
Qt和OpenGLWindow - 调整大小的闪烁

如何解决《Qt和OpenGLWindow-调整大小的闪烁》经验，为你挑选了0个好方法。 ... [详细]
程序员
vscode中的tasks.json文件在哪里？

如何解决《vscode中的tasks.json文件在哪里？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AVAudioEngine.start()崩溃,即使它包含在do/catch中

如何解决《AVAudioEngine.start()崩溃,即使它包含在do/catch中》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决这个"索引0超出空数组的界限!"

如何解决《如何解决这个"索引0超出空数组的界限!"》经验，为你挑选了1个好方法。 ... [详细]
程序员
IntelliJ中的调试gradle任务

如何解决《IntelliJ中的调试gradle任务》经验，为你挑选了0个好方法。 ... [详细]
程序员
正确处理PHP 7返回类型的方法

如何解决《正确处理PHP7返回类型的方法》经验，为你挑选了3个好方法。 ... [详细]
程序员
选择一个选项时，显示组合框值而不是文本

如何解决《选择一个选项时，显示组合框值而不是文本》经验，为你挑选了1个好方法。 ... [详细]

农大军乐团_697

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章