Intel apresenta AutoRound: nova tecnologia para otimização de LLMs em GPUs Intel e NVIDIA com formatos FP8

Intel Lança AutoRound para Otimização de Modelos de Linguagem

A Intel apresentou o AutoRound, um algoritmo de quantização pós-treinamento (PTQ) de última geração, agora integrado ao LLM Compressor. Esta biblioteca visa otimizar modelos para implantação com o vllm e está disponível no GitHub.

O AutoRound inclui uma gama abrangente de algoritmos de quantização, permitindo a quantização de pesos e ativações. Além disso, oferece integração com modelos e repositórios do Hugging Face, utilizando um formato de arquivo baseado em safetensors compatível com o vllm. A empresa também promete suporte a modelos grandes através do accelerate.

Benefícios do AutoRound

Com a nova ferramenta, a Intel busca proporcionar maior precisão na quantização com baixa largura de bits. O algoritmo promete simplificar o ajuste, reduzindo o número de etapas necessárias para centenas, ao invés de milhares, e sem sobrecarga adicional de inferência.

O fluxo de trabalho será facilitado, permitindo que usuários quantizem e disponibilizem modelos com apenas algumas linhas de código. O software pode ser baixado diretamente pelo GitHub.

O que é o AutoRound?

O AutoRound é um algoritmo avançado de quantização pós-treinamento (PTQ) voltado para Modelos de Linguagem de Grande Porte (LLMs). Ele introduz três parâmetros treináveis por tensor quantizado: v (deslocamento/ajuste de arredondamento), α e β (controles de intervalo de recorte aprendidos).

O algoritmo otimiza o arredondamento e o recorte para minimizar erros de reconstrução da saída em blocos, utilizando o método do gradiente descendente com sinal. A Intel garante que o AutoRound oferece precisão superior, especialmente em larguras de bits muito baixas, e suporta múltiplos tipos de dados, como W4A16, MXFP8, entre outros.

Aplicabilidade em LLMs

O AutoRound é projetado para modelos quantizados em formatos de baixa largura de bits, especialmente para acelerar a inferência em processadores Intel Xeon e GPUs Intel Data Center. A Intel está implementando suporte nativo aos formatos FP8, MXFP8 e MXFP4 em sua próxima geração de GPU, codinome Crescent Island.

Os modelos quantizados com AutoRound serão otimizados para aproveitar esses tipos de dados em todo o portfólio de hardware da Intel, criando um caminho consistente entre inovação algorítmica e implementação prática.

Conclusão

Com o lançamento do AutoRound, a Intel demonstra seu compromisso em melhorar a eficiência e a precisão na quantização de modelos de linguagem. A ferramenta promete facilitar o desenvolvimento e a implementação de soluções de inteligência artificial, sinalizando um avanço significativo na área.

Fonte por: Adrenaline