Estímulos externos do ambiente como luz, som e pressão são captados por receptores sensoriais (inputs). Esses receptores realizam um processo fundamental chamado transdução, no qual a energia física do estímulo é convertida em sinais eletroquímicos.
Esses sinais elétricos são então propagados ao longo de vias neurais até o cérebro, onde ocorre o processamento da informação por redes complexas de neurônios biológicos. Cada um desses neurônios recebe múltiplos sinais, integra essas informações e decide se irá ou não gerar um potencial de ação. O resultado desse processamento é encaminhado aos effectors, como músculos ou glândulas, responsáveis pela resposta observável (output).
Modelagem matemática do neurônio
Cada entrada representa um sinal recebido, e cada conexão possui um peso sináptico associado (), que modela a intensidade e a influência dessa conexão.
Matematicamente, o potencial interno do neurônio é descrito por uma soma ponderada das entradas:
Matematicamente, podemos descrever a dinâmica dos neurônios como sendo:
Essa equação representa o processo de integração sináptica, análogo ao que ocorre nos dendritos de um neurônio biológico.
Aqui, adicionamos o bias (), que é um termo de ajuste que permite ao neurônio deslocar a função de ativação para esquerda ou para direita. Veremos mais a fundo sua efetividade daqui um tempo.
O sinal total
é então passado por uma função de ativação (), responsável por introdução não linearidade ao modelo. A não linearidade é essencial, sem ela uma rede neural composta por múltiplas camadas se reduziria a um único modelo linear, incapaz de representar relações complexas. Assim, o output da rede de neurônios () nada mais é que:
Incorporação do bias como neurônio artificial
Do ponto de vista matemático, é comum incorporarmos o bias diretamente na soma ponderada, tratando-o como um neurônio fictício , associando-o a um peso . Assim, obtemos:
Tipos de função de ativação
1. Threshold function (Heaviside)
Uma das funções mais simples utilizadas em modelos neurais é a função degrau, ou função de Heaviside, definida como:
Nesse caso, o neurônio apresenta um comportamento estritamente binário: dispara quando o potencial interno ultrapassa um limiar e permanece inativo caso contrário. O output do neurônio é então:
Como a saída não depende da magnitude do potencial, mas apenas de seu sinal, o modelo não apresenta dinâica temporal nem a intensidade da ativação. O neurônio não possui estados intermediários: ele apenas está “ligado” ou “desligado”. Além disso, a função de Heaviside é não diferenciável, o que inviabiliza seu uso em métodos de aprendizado baseados em gradiente, como o backpropagation. Essas limitações motivaram o desenvolvimento de funções de ativação contínuas e diferenciáveis, capazes de representar respostas graduais e facilitar o treinamento de redes profundas.
2. Sigmoid function
Funções sigmoides são a forma mais comum de funções de ativação. Um exemplo comum é a função logística:
O interessante de usarmos a função logística como função de ativação é que, além de ser uma função diferenciável em todo espaço, ainda é simétrica. Também podemos substituir a função logística por
mas isso requer um maior custo computacional.
Um exemplo de uso da função logística como função de ativação é um modelo estocástico de neurônios. Aqui, um neurônio tem somente dois estados possíveis: ativado (+1) ou desligado (-1). A decisão de ativação é probabilística, seguindo a lei de probabilidade .
Nesse caso, uma escolha padrão de função de ativação é nossa amiga:
onde é uma pseudo-temperatura, utilizada para controlar o ruido e, portanto, a incerteza do disparo. A verdade é que não tem relação alguma com a grandeza física temperatura, é somente um parâmetro de controle. Inclusive, é interessante notar que quando , recuperamos o modelo determinístico, pois:
Agora que retomamos alguns conceitos, vamos estabelecer três regras para redes neurais como gráficos direcionados:
Primeira regra:
Um sinal flui somente na direção definida pela seta desse link. Existem dois tipos diferentes de links:
- links sinápticos: governados por uma regra lienar. Um nó é multiplicado por um peso para produzir o output.
- links de ativição: esses em geral são não lineares e o output é o resultado de
Segunda regra:
O sinal de um nó é igual a soma algébrida de todos os sinais que chegam até ele.
Terceira regra:
O sinal de um nó não interefere no outro
Feedback
O feedback ocorre quando em um sistema fechado o output intefere no input que é dado.
Assim, definimos o output ($y_k) como sendo:
Agora, quanto ao input , ele sofre interferência do output por meio do operador :
Então:
Assim:
O operador de delay unitário faz com que o sistema retorne uma unidade de tempo. Aplicando-o vezes:
Aqui, temos duas situações bem claras:
-
Se , o sistema é estável e tem decaimento exponecial;
-
Se , o sistema é instável. Se a instabilidade é linear e se , a instabilidade é exponencial.