当前位置:  开发笔记 > 编程语言 > 正文

将最多100,000条记录插入DocumentDB的最快方法

如何解决《将最多100,000条记录插入DocumentDB的最快方法》经验,为你挑选了1个好方法。

正如标题所示,我需要以编程方式将100,000多条记录插入到DocumentDb集合中.这些数据将在稍后用于创建报告.我正在使用Azure Documents SDK和用于批量插入文档的存储过程(请参阅使用存储过程查询Azure documentdb批量插入).

以下控制台应用程序显示了我如何插入文档.

InsertDocuments生成500个测试文档以传递给存储过程.main函数调用InsertDocuments 10次,整体插入5,000个文档.运行此应用程序会导致每隔几秒钟插入500个文档.如果我增加每次通话的文件数量,我就会开始收到错误并丢失文件.

任何人都可以推荐更快的方式来插入文件?

static void Main(string[] args)
{
    Console.WriteLine("Starting...");

    MainAsync().Wait();
}

static async Task MainAsync()
{
    int campaignId = 1001,
        count = 500;

    for (int i = 0; i < 10; i++)
    {
        await InsertDocuments(campaignId, (count * i) + 1, (count * i) + count);
    }
}

static async Task InsertDocuments(int campaignId, int startId, int endId)
{
    using (DocumentClient client = new DocumentClient(new Uri(documentDbUrl), documentDbKey))
    {
        List items = new List();

        // Create x number of documents to insert
        for (int i = startId; i <= endId; i++)
        {
            var item = new
            {
                id = Guid.NewGuid(),
                campaignId = campaignId,
                userId = i,
                status = "Pending"
            };

            items.Add(item);
        }

        var task = client.ExecuteStoredProcedureAsync("/dbs/default/colls/campaignusers/sprocs/bulkImport", new RequestOptions()
        {
            PartitionKey = new PartitionKey(campaignId)
        },
        new
        {
            items = items
        });

        try
        {
            await task;

            int insertCount = (int)task.Result.Response;

            Console.WriteLine("{0} documents inserted...", insertCount);
        }
        catch (Exception e)
        {
            Console.WriteLine("Error: {0}", e.Message);
        }
    }
}

Aravind Kris.. 27

将文档插入Azure DocumentDB的最快方法.可以在Github上获取样本:https://github.com/Azure/azure-documentdb-dotnet/tree/master/samples/documentdb-benchmark

以下提示将帮助您使用.NET SDK实现最佳通过:

初始化单个DocumentClient

使用直接连接和TCP协议(ConnectionMode.DirectConnectionProtocol.Tcp)

并行使用100个任务(取决于您的硬件)

增加MaxConnectionLimit在DocumentClient构造为一个高值,说1000个连接

打开gcServer

确保您的集合具有适当的预配置吞吐量(以及良好的分区键)

在同一个Azure区域中运行也会有所帮助

使用10,000 RU/s,您可以在大约50秒内插入100,000个文档(每次写入大约5个请求单位).

使用100,000 RU/s,您可以在大约5秒内插入.您可以通过配置吞吐量(以及非常高的插入数,跨多个VM /工作者的扩展插入)来尽可能快地实现此目的



1> Aravind Kris..:

将文档插入Azure DocumentDB的最快方法.可以在Github上获取样本:https://github.com/Azure/azure-documentdb-dotnet/tree/master/samples/documentdb-benchmark

以下提示将帮助您使用.NET SDK实现最佳通过:

初始化单个DocumentClient

使用直接连接和TCP协议(ConnectionMode.DirectConnectionProtocol.Tcp)

并行使用100个任务(取决于您的硬件)

增加MaxConnectionLimit在DocumentClient构造为一个高值,说1000个连接

打开gcServer

确保您的集合具有适当的预配置吞吐量(以及良好的分区键)

在同一个Azure区域中运行也会有所帮助

使用10,000 RU/s,您可以在大约50秒内插入100,000个文档(每次写入大约5个请求单位).

使用100,000 RU/s,您可以在大约5秒内插入.您可以通过配置吞吐量(以及非常高的插入数,跨多个VM /工作者的扩展插入)来尽可能快地实现此目的


谢谢你的回答.有趣的是,它不使用存储过程来批量插入文档.它在很大程度上依赖于硬件的大小来获得快速的结果.我会测试一下并发布我的结果.
推荐阅读
mylvfamily
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有