正如标题所示,我需要以编程方式将100,000多条记录插入到DocumentDb集合中.这些数据将在稍后用于创建报告.我正在使用Azure Documents SDK和用于批量插入文档的存储过程(请参阅使用存储过程查询Azure documentdb批量插入).
以下控制台应用程序显示了我如何插入文档.
InsertDocuments生成500个测试文档以传递给存储过程.main函数调用InsertDocuments 10次,整体插入5,000个文档.运行此应用程序会导致每隔几秒钟插入500个文档.如果我增加每次通话的文件数量,我就会开始收到错误并丢失文件.
任何人都可以推荐更快的方式来插入文件?
static void Main(string[] args) { Console.WriteLine("Starting..."); MainAsync().Wait(); } static async Task MainAsync() { int campaignId = 1001, count = 500; for (int i = 0; i < 10; i++) { await InsertDocuments(campaignId, (count * i) + 1, (count * i) + count); } } static async Task InsertDocuments(int campaignId, int startId, int endId) { using (DocumentClient client = new DocumentClient(new Uri(documentDbUrl), documentDbKey)) { Listitems = new List (); // Create x number of documents to insert for (int i = startId; i <= endId; i++) { var item = new { id = Guid.NewGuid(), campaignId = campaignId, userId = i, status = "Pending" }; items.Add(item); } var task = client.ExecuteStoredProcedureAsync ("/dbs/default/colls/campaignusers/sprocs/bulkImport", new RequestOptions() { PartitionKey = new PartitionKey(campaignId) }, new { items = items }); try { await task; int insertCount = (int)task.Result.Response; Console.WriteLine("{0} documents inserted...", insertCount); } catch (Exception e) { Console.WriteLine("Error: {0}", e.Message); } } }
Aravind Kris.. 27
将文档插入Azure DocumentDB的最快方法.可以在Github上获取样本:https://github.com/Azure/azure-documentdb-dotnet/tree/master/samples/documentdb-benchmark
以下提示将帮助您使用.NET SDK实现最佳通过:
初始化单个DocumentClient
使用直接连接和TCP协议(ConnectionMode.Direct
和ConnectionProtocol.Tcp
)
并行使用100个任务(取决于您的硬件)
增加MaxConnectionLimit
在DocumentClient构造为一个高值,说1000个连接
打开gcServer
上
确保您的集合具有适当的预配置吞吐量(以及良好的分区键)
在同一个Azure区域中运行也会有所帮助
使用10,000 RU/s,您可以在大约50秒内插入100,000个文档(每次写入大约5个请求单位).
使用100,000 RU/s,您可以在大约5秒内插入.您可以通过配置吞吐量(以及非常高的插入数,跨多个VM /工作者的扩展插入)来尽可能快地实现此目的
将文档插入Azure DocumentDB的最快方法.可以在Github上获取样本:https://github.com/Azure/azure-documentdb-dotnet/tree/master/samples/documentdb-benchmark
以下提示将帮助您使用.NET SDK实现最佳通过:
初始化单个DocumentClient
使用直接连接和TCP协议(ConnectionMode.Direct
和ConnectionProtocol.Tcp
)
并行使用100个任务(取决于您的硬件)
增加MaxConnectionLimit
在DocumentClient构造为一个高值,说1000个连接
打开gcServer
上
确保您的集合具有适当的预配置吞吐量(以及良好的分区键)
在同一个Azure区域中运行也会有所帮助
使用10,000 RU/s,您可以在大约50秒内插入100,000个文档(每次写入大约5个请求单位).
使用100,000 RU/s,您可以在大约5秒内插入.您可以通过配置吞吐量(以及非常高的插入数,跨多个VM /工作者的扩展插入)来尽可能快地实现此目的