Intel apresenta AutoRound: nova tecnologia para otimização de LLMs em GPUs Intel e NVIDIA com formatos FP8
Novo CEO parece estar superando a crise e ajustando a direção do time azul.
Intel Lança AutoRound para Otimização de Modelos de Linguagem
A Intel apresentou o AutoRound, um algoritmo de quantização pós-treinamento (PTQ) de última geração, agora integrado ao LLM Compressor. Esta biblioteca visa otimizar modelos para implantação com o vllm e está disponível no GitHub.
O AutoRound inclui uma gama abrangente de algoritmos de quantização, permitindo a quantização de pesos e ativações. Além disso, oferece integração com modelos e repositórios do Hugging Face, utilizando um formato de arquivo baseado em safetensors compatível com o vllm. A empresa também promete suporte a modelos grandes através do accelerate.
Benefícios do AutoRound
Com a nova ferramenta, a Intel busca proporcionar maior precisão na quantização com baixa largura de bits. O algoritmo promete simplificar o ajuste, reduzindo o número de etapas necessárias para centenas, ao invés de milhares, e sem sobrecarga adicional de inferência.
O fluxo de trabalho será facilitado, permitindo que usuários quantizem e disponibilizem modelos com apenas algumas linhas de código. O software pode ser baixado diretamente pelo GitHub.
O que é o AutoRound?
O AutoRound é um algoritmo avançado de quantização pós-treinamento (PTQ) voltado para Modelos de Linguagem de Grande Porte (LLMs). Ele introduz três parâmetros treináveis por tensor quantizado: v (deslocamento/ajuste de arredondamento), α e β (controles de intervalo de recorte aprendidos).
O algoritmo otimiza o arredondamento e o recorte para minimizar erros de reconstrução da saída em blocos, utilizando o método do gradiente descendente com sinal. A Intel garante que o AutoRound oferece precisão superior, especialmente em larguras de bits muito baixas, e suporta múltiplos tipos de dados, como W4A16, MXFP8, entre outros.
Aplicabilidade em LLMs
O AutoRound é projetado para modelos quantizados em formatos de baixa largura de bits, especialmente para acelerar a inferência em processadores Intel Xeon e GPUs Intel Data Center. A Intel está implementando suporte nativo aos formatos FP8, MXFP8 e MXFP4 em sua próxima geração de GPU, codinome Crescent Island.
Os modelos quantizados com AutoRound serão otimizados para aproveitar esses tipos de dados em todo o portfólio de hardware da Intel, criando um caminho consistente entre inovação algorítmica e implementação prática.
Conclusão
Com o lançamento do AutoRound, a Intel demonstra seu compromisso em melhorar a eficiência e a precisão na quantização de modelos de linguagem. A ferramenta promete facilitar o desenvolvimento e a implementação de soluções de inteligência artificial, sinalizando um avanço significativo na área.
Fonte por: Adrenaline
Autor(a):
Redação
Portal de notícias e informações atualizadas do Brasil e do mundo. Acompanhe as principais notícias em tempo real