Árvore de páginas

Versões comparadas

Chave

  • Esta linha foi adicionada.
  • Esta linha foi removida.
  • A formatação mudou.

...

Para direcionar o desenvolvimento, foi consutado a quantidade de dados gerados em dia na V3 em Produção. Levou-se em consideração os dados mais comuns e que geram mais volume, sendo eles:
Cliente, Preço. Produto e Venda. Chegou-se aos seguintes dados: 

Tipo DadoQtd DadosTamanho Dado
Cliente397061327.76MB
Preço748955380.14MB

Produto

131001209.76MB
Venda3155.77MB

Com o intuito de validar a solução, nos testes, foram utilizados valores superiores aos mostrados acima. Os testes foram feitos com Produto e Venda, que são dados mais volumosos. Seguem os resultados:

Tipo DadoQtd DadosTamanho DadoTempo Processamento
Produto - Lote153k382.5MB1m 15s
Produto - Lote454k1.1GB3m 10s

Venda

2k37.42MB12s
Venda - Lote146k3.42GB12m

Obs.: O dados em Lote são dados que possuem mais de um item por registro no banco. Produto por exemplo, possui mil registro, logo, são 153 (ou 454) linhas no banco, mas que totalizam 153 (ou 454) mil itens que serão salvos no Dado Dinâmico.
Venda possui um lote de 146 itens, e mil linhas/registros no banco , logo foram 146 mil vendas processadas no teste.

Ao londo do desenvolvimento, diversas melhorias foram realizadas. No modelo final, com otimizações principalmente no uso de memória, conseguiu-se processar todos os dados do banco (4.54GB) em 12min.
Vale ressaltar que o maior ofensor da ferramenta é o uso de memória. Para processar todo o banco (4.54GB), a aplicação chegou a utilizar 7.7GB de memória RAM. Após o termino do processamento, esse número baixou para 1.1GB, sendo que parte desse 
valor, se da pelo fato da aplicação deixar a memória reservado, ou seja, ela não está sendo usada de fato, o que não onera o uso por outras aplicações que estejam rodando da máquina.


Consultados Dados

Os dados podem ser consultados diretamente no GCS, seguindo a estrutura estabelecida é possível via filtro da plataforma, localizar os dados de um inquilino em uma determinada data.
Também é possível consutar os dados através da Lib .Net fornecidade pelo Google, porém, seria necessário o desenvolvimento essa funcionalidade. 

Com relação a análise dos dados gerados, percebe-se que pode haver algumas dificuldades, visto que os arquivos normalmente terão um grande volume de dados (até 1GB). Pensando nisso, remomenda-se criar uma ferramenta capaz de "dividir"
os arquivos em arquivos menores, dessa forma, a leitura dos mesmos se torna mais fluida. Se em anexo um scrip shell que faz exatamente essa função, e divido o arquivos em partes de até 100MB. 

View file
namesplit_json.sh
height250
 

Para utililiza-lo, basta abri-lo em um editor de texto, colocar o caminho do arquivo na variável "INPUT_FILE" e abrir o Terminal/CMD e executar o script. O único requirimento é que a máquina tenha o Python3 instalado

Image Added

Os arquivos serão salvos na mesma pasta dos arquivos originais com o sufixo "_output_0001".