5赞

在循环中使用Thrust优化CUDA

作者：虎仔球妈_459 | 2023-08-07 13:14

如何解决《在循环中使用Thrust优化CUDA》经验，为你挑选了1个好方法。

给出以下代码片段,使用推力生成一种带CUDA的代码字典(CUDA的C++模板库):

thrust::device_vector dCodes(codes->begin(), codes->end());
thrust::device_vector dCounts(counts->begin(), counts->end());
thrust::device_vector newCounts(counts->size());

for (int i = 0; i < dCodes.size(); i++) {
    float code = dCodes[i];
    int count = thrust::count(dCodes.begin(), dCodes.end(), code);

    newCounts[i] = dCounts[i] + count;

    //Had we already a count in one of the last runs?
    if (dCounts[i] > 0) {
        newCounts[i]--;
    }

    //Remove
    thrust::detail::normal_iterator > newEnd = thrust::remove(dCodes.begin()+i+1, dCodes.end(), code);
    int dist = thrust::distance(dCodes.begin(), newEnd);
    dCodes.resize(dist);
    newCounts.resize(dist);
}

codes->resize(dCodes.size());
counts->resize(newCounts.size());

thrust::copy(dCodes.begin(), dCodes.end(), codes->begin());
thrust::copy(newCounts.begin(), newCounts.end(), counts->begin());

问题是,通过使用CUDA视觉分析器,我注意到4个字节的多个副本.IMO这是由生成的

循环计数器i

float代码,int count和dist

每次访问i和上面提到的变量

这似乎减慢了一切(顺序复制4个字节并不好玩......).

那么,我是如何告诉推力的,这些变量应该在设备上处理？或者他们已经？

使用thrust :: device_ptr对我来说似乎不够,因为我不确定for循环是在主机上还是在设备上运行(这也可能是缓慢的另一个原因).

1> Anycorn..：

对于i的每次重复,大小,索引,代码等都必须从主机复制到设备..你拥有程序的方式,你可以做的并不多.为获得最佳效果,请考虑在设备上移动整个i循环,这样您就不会拥有设备副本.

信任对于某些事情是很好的,但是在性能方面并且算法不太适合可用函数的情况下,您可能必须重写以获得最佳性能而无需明确使用推力算法.

推荐阅读

程序员
如何使用Microsoft.SqlServer.Management.SqlParser中的类将T-SQL解析为AST

如何解决《如何使用Microsoft.SqlServer.Management.SqlParser中的类将T-SQL解析为AST》经验，为你挑选了0个好方法。 ... [详细]
程序员
部署应用程序的java.lang.AbstractMethodError(Spring 4 MVC + Hibernate 4/5)

如何解决《部署应用程序的java.lang.AbstractMethodError(Spring4MVC+Hibernate4/5)》经验，为你挑选了1个好方法。 ... [详细]
程序员
Gulp:并行运行多个节点脚本

如何解决《Gulp:并行运行多个节点脚本》经验，为你挑选了0个好方法。 ... [详细]
程序员
Elixir Phoenix帮助关联模型列表

如何解决《ElixirPhoenix帮助关联模型列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux中没有符号插入的共享对象,-fno-semantic-interposition error

如何解决《Linux中没有符号插入的共享对象,-fno-semantic-interpositionerror》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法打开文件"***.app",因为您无权查看该文件

如何解决《无法打开文件"***.app",因为您无权查看该文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查变量是否是生成器函数？(例如功能*产量)

如何解决《如何检查变量是否是生成器函数？(例如功能*产量)》经验，为你挑选了1个好方法。 ... [详细]
程序员
perror()和printf()之间的区别

如何解决《perror()和printf()之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Amazon Linux中升级pip

如何解决《在AmazonLinux中升级pip》经验，为你挑选了4个好方法。 ... [详细]
程序员
如何动态更改bootstrap模态体

如何解决《如何动态更改bootstrap模态体》经验，为你挑选了2个好方法。 ... [详细]
程序员
当我尝试在列表中找到.IndexOf(a)时,为什么这会返回-1？

如何解决《当我尝试在列表中找到.IndexOf(a)时,为什么这会返回-1？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hazelcast SlowOperationDetector可以识别执行时间少于1秒的操作

如何解决《HazelcastSlowOperationDetector可以识别执行时间少于1秒的操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
@relay的目的(pattern:true)

如何解决《@relay的目的(pattern:true)》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Swift代码编译为Linux的本机可执行文件

如何解决《将Swift代码编译为Linux的本机可执行文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Update 1安装到TFS 2015后该怎么办失败

如何解决《将Update1安装到TFS2015后该怎么办失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7认证

如何解决《PHP7认证》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript中的function()()

如何解决《javascript中的function()()》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Newtonsoft.Json反序列化JSON数组

如何解决《如何使用Newtonsoft.Json反序列化JSON数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
每个列表列表的Erlang

如何解决《每个列表列表的Erlang》经验，为你挑选了1个好方法。 ... [详细]
程序员
打开文件夹时可以自动启动任务吗？

如何解决《打开文件夹时可以自动启动任务吗？》经验，为你挑选了3个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章