Máximos e Mínimos
Transcripción
Máximos e Mínimos
Máximos e Mínimos em Funções de Várias Variáveis: Uma Aplicação da Fórmula de Taylor, com Análise de Autovalores da Matriz Hesiana André Oliveira Maroneze MA211 – Turma K 23/11/2003 RA 023146 1 Máximos e Mínimos em Funções de Várias Variáveis Em diversas situações, os pontos mais interessantes de uma função (de uma ou várias variáveis) são os pontos de máximo ou mínimo – os pontos intermediários geralmente não apresentam muitas características interessantes. Tais pontos são relativamente fáceis de serem encontrados, e podem ser estabelecidas diversas restrições a sua localização. Por suas características especiais, esses pontos são determinados de forma precisa: para funções de uma única variável, qualquer candidato a máximo ou mínimo tem derivada nula. Seja porque a função pára de crescer nele, seja porque ela inicia sua ascensão, pontos de derivada nula podem ocorrer em três situações diferentes: 1 – O ponto é um máximo (local ou absoluto): em um pequeno intervalo ao redor do ponto, todos os valores da função são menores ou iguais a ele; 2 – O ponto é um mínimo (local ou absoluto): em um pequeno intervalo ao redor do ponto, todos os valores da função são maiores ou iguais a ele; 3 – O ponto é uma inflexão: pontos em um pequeno intervalo à sua esquerda são menores ou iguais a ele, e à sua direita são maiores, ou vice-versa. Situações análogas a essas três ocorrem também em funções de várias variáveis, embora nesse caso seja um pouco mais complicado descobrir tais pontos. Em funções de várias variáveis, a ocorrência de uma derivada parcial nula nem sempre representa algo muito útil; quando se quer minimizar tais funções, costuma-se procurar por pontos em que todas as derivadas parciais sejam nulas; somente assim se garante um ponto crítico, que pode vir a ser de três tipos: 1 – Ponto de máximo: análogo ao caso anterior, exceto que o intervalo, desta vez, é n-dimensional ao redor do ponto. Se a função é de n variáveis, é preciso considerar valores próximos da função em n dimensões. 2 – Ponto de mínimo: também análogo ao interior, com a mesma ressalva em relação ao intervalo. 3 – Ponto de sela: Assim chamado por sua aparência em gráficos tridimensionais de funções de duas variáveis (a região próxima parece uma sela de cavalo), tal ponto representa um máximo (local ou absoluto) em uma dimensão e um mínimo (local ou absoluto) em alguma outra, ou representa um ponto de inflexão em uma ou várias dimensões; mas não significa que a função possua valores mínimos ou máximos nele. Essa situação determina que, conhecidas as derivadas parciais de uma função, sabemos onde estão pontos críticos da mesma; no entanto, não sabemos em qual situação estamos, a menos que façamos alguns testes numéricos com a função nas proximidades, ou visualizemos seu gráfico. Mas isso nem sempre é possível (ou desejável). Nesse caso, analogamente ao que fazíamos nas funções de uma única variável, podemos estabelecer um método mais preciso (e mais prático, também, do ponto de vista computacional), baseandonos nas segundas derivadas da função. Existem vários métodos conhecidos para isso; uns usam conceitos como autovalores e autovetores; outros se baseiam em conseqüências desses elementos sem mencioná-los. Se considerarmos uma função bi ou tridimensional de um campo escalar, podemos deduzir as características desejadas a partir de considerações sobre a fórmula de Taylor de segunda ordem. Faremos uma demonstração apenas para o caso de uma função de duas variáveis, 2 mas o método geral é válido para funções de mais variáveis também. Sejam f(x,y) um campo escalar e (x0, y0) = (x + ∆x, y + ∆y) um ponto desse campo. A fórmula de Taylor nos fornece, então: f ( x, y ) = f ( x 0 , y 0 ) + ∆x ∂f ( x 0 , y 0 ) ∂f ( x 0 , y 0 ) + ∆y + ∂x ∂y ∂ 2 f ( x0 , y0 ) ∂ 2 f ( x0 , y 0 ) 1 ∂ 2 f ( x0 , y 0 ) 2 x 2 x y ∆ + ∆ ∆ + ∆y 2 + R 2 2 2 ∂x∂y ∂x ∂y onde R representa o resto (às vezes chamado de erro) da aproximação. Essa fórmula permite que relacionemos a matriz Hessiana (matriz das segundas derivadas da função) com a determinação dos pontos críticos. Neles, a primeira derivada é nula, portanto os valores da função nas proximidades dependem basicamente dos termos entre os colchetes. Podemos realizar as seguintes substituições: ∂ 2 f ( x0 , y0 ) 2 ∆x , a= ∂x 2 ∂ 2 f ( x0 , y0 ) ∂ 2 f ( x0 , y 0 ) 2 ∆x∆y , c = ∆y b= ∂x∂y ∂y 2 Então temos uma expressão para os termos quadráticos: Q(∆x, ∆y) = a ∆x2 + 2b∆x∆y + c∆y2 =f(x ,y) – f(x0, y0) nos pontos críticos, onde a primeira derivada é nula. Podemos escrever essa expressão na forma matricial: a b ∆x Q(∆x, ∆y ) = [∆x ∆y ] b c ∆y E obtemos justamente a matriz Hessiana: ∂2 f a b ∂x 2 b c = ∂ 2 f ∂x∂y ∂2 f ∂x∂y ∂2 f ∂y 2 Portanto, para a análise dos pontos críticos, é necessário que as segundas derivadas da função existam e sejam diferentes de zero (nesse último caso, a matriz Hessiana, embora existente, não fornece as informações que procuramos). Podemos relacionar a matriz Hessiana com uma cônica em um plano; é possível diagonalizá-la, e para tal usamos um processo idêntico ao da rotação de uma cônica. Outra semelhança entre a forma da matriz e a característica do ponto crítico pode ser vista quando desenhamos as curvas de nível da função: quando o ponto é de sela, geralmente obtemos hipérboles; quando é de máximo ou mínimo, costumamos ter elipses ou círculos. Uma 3 característica das hipérboles é apresentar autovalores de sinais contrários em sua matriz de termos quadráticos, enquanto que elipses possuem autovalores de sinais iguais. Resumindo, temos a seguinte relação entre os sinais dos autovalores da Hessiana e o caso do ponto crítico: Sinais dos autovalores Todos positivos Ao menos um positivo e um negativo Todos negativos O ponto crítico é Ponto de mínimo Ponto de sela Ponto de máximo Quando temos um caso de uma função de duas variáveis, podemos determinar as mesmas características observando o sinal do primeiro elemento da matriz Hessiana e seu determinante. Se o determinante é negativo, o ponto em questão é um ponto de sela; se o determinante é positivo, precisamos checar o sinal do primeiro elemento: sendo positivo, o ponto é de mínimo; caso contrário, é de máximo. Se o determinante for zero, não obtemos informação alguma sobre o ponto. Não é difícil chegar a essa conclusão partindo da análise dos autovetores, usando alguns conceitos de álgebra linear; para simplificar, podemos lembrar que, caso os autovetores tenham valores diferentes, a multiplicação de ambos para o cálculo do determinante resultará em valor negativo; do contrário, o determinante é positivo – nesse caso, ou ambos os termos são negativos (ponto de mínimo) ou positivos (ponto de máximo), o que nos força checar o sinal do primeiro elemento. Embora isso seja obtido diretamente em uma matriz ortogonal (onde o termo misto é nulo), não é difícil mostrar que é válido para outras. Para auxiliar na compreensão desse método simples e eficiente, exemplificaremos com algumas funções, mostrando o processo de análise, gráficos e os pontos críticos. Exemplo 1: g ( x, y ) = sin x cosh y Obtemos as derivadas parciais: ∂g ∂g = cos x cosh y, = sin x sinh y ∂x ∂y Os pontos críticos possuem derivada nula, então temos de encontrar os pontos para os quais: ∂g ∂g = =0 ∂x ∂y Resolvendo as equações, obtemos a seguinte solução: x=k π , 2 k ∈Ζ y=0 Como a função cosseno é periódica, temos infinitos pontos críticos; plotamos então um trecho no intervalo -2π ≤ x ≤ 2π, -2 ≤ y ≤ 2: 4 Há quatro pontos críticos nesse intervalo, sendo todos pontos de sela. Podemos confirmar que são pontos críticos traçando retas tangentes à função nos pontos (que representam as derivadas parciais); devem ser paralelas aos eixos x e y. Pode-se confirmar isso mudando o ângulo de visão do gráfico. Abaixo, a visão do plano xz: 5 A seguir, visões dos planos xz e xy, respectivamente: Essas retas, traçadas no ponto (-π/2, 0, -1), mostram que as derivadas parciais nesse ponto são nulas. Assim, ele é um ponto crítico. Como sabemos da existência de pontos críticos no campo escalar, calculemos a matriz Hessiana: ∂2g 2 ∂x2 ∂ g ∂x∂y ∂2g ∂x∂y − sin x cosh y cos x sinh y = ∂ 2 g cos x sinh y sin x cosh y ∂y 2 6 Podemos utilizar um sistema algébrico computacional para calcular os autovalores da matriz. Na maioria dos softwares utilizados atualmente, por serem feitos em inglês, o comando é o termo autovalor traduzido para o inglês: eigenvalue. No MuPAD, por exemplo, podemos utilizar o linalg::eigenvalues(). Existe um comando para o cálculo numérico de autovalores, geralmente mais eficiente, mas ele não funciona com elementos simbólicos. Colocamos o nome da matriz entre parênteses. Para a Hessiana da função dada, o programa responde com dois valores: λ1 = cos 2 x sinh 2 y + sin 2 x cosh 2 y λ 2 = − cos 2 x sinh 2 y + sin 2 x cosh 2 y Calculando no ponto P1 = (π/2, 0): λ1 = 1 λ 2 = −1 Analisando a expressão dos autovalores, percebemos que eles são os mesmos para todos os pontos críticos. Assim, provamos que os pontos são de sela, pois os autovalores têm sinais contrários. Não precisaríamos ter plotado os gráficos para descobrir isso, e essa é uma das grandes vantagens do método. Nota: a função do campo escalar bidimensional foi plotada como se fosse uma função tridimensional. É muito mais revelador que um gráfico do campo. A figura a seguir mostra as curvas de nível. Certamente torna mais difícil identificar onde estão os pontos críticos e de que tipo são. 7 Exemplo 2: g ( x, y ) = x 3 + y 3 − 3 xy Como já fizemos todo o desenvolvimento anteriormente, aqui vamos resumir os passos. Desta vez, encontraremos os pontos e sua forma antes de olharmos o gráfico. Passo 1: Calcular derivadas parciais ∂g = 3x 2 − 3 y ∂x ∂g = 3 y 2 − 3x ∂y Passo 2: Resolver o sistema ∂g ∂g = =0 ∂x ∂y S = {(0,0), (1,1)} (O sistema possui soluções complexas, mas estamos nos restringindo ao espaço real, por isso elas foram descartadas.) Passo 3: Calcular a Hessiana nos pontos críticos Hessiana ∂2g 2 ∂x2 ∂ g ∂x∂y Em P1 = (0, 0) ∂2g ∂x∂y 6 x − 3 = ∂ 2 g − 3 6 y ∂y 2 0 − 3 − 3 0 Em P2 = (1, 1) 6 − 3 − 3 6 Passo 4: Determinar autovalores das Hessianas nos pontos críticos Em P1: Em P2: λ1 = −3 λ1 = 3 λ2 = 3 λ2 = 9 Assim, temos que P1 é um ponto de sela e P2 é um ponto de mínimo (local ou absoluto). Como a função é de duas variáveis, poderíamos tentar usar o método do determinante para obter o mesmo resultado. Na Hessiana em P1, temos det = -9 (ponto de sela). Na Hessiana em P2, temos det = 25 e H1,1 > 0 (ponto de mínimo). 8 Visualizemos o gráfico da função para confirmar: (Nota: devido à forma da curva, torna-se difícil visualizar os pontos e os planos tangentes em um mesmo gráfico; por isso, optamos por dividi-lo em dois, um para cada ponto crítico, para que se possa ver melhor que um é ponto de sela, e o outro de mínimo.) 9 A primeira figura mostra o ponto P1 = (0, 0, 0), e a segunda P2 = (1, 1, -1). Em ambas as figuras, o ponto está centrado na intersecção das retas pretas (paralelas aos eixos cartesianos). As retas azuis são as “fatias” dos planos xz e yz nas coordenadas dos pontos (feitas para ajudar a visualização: as retas pretas são as projeções dessas azuis no plano tangente à função nos pontos críticos, que é paralelo ao xy). Embora os intervalos adotados tornem muito difícil ver que são partes do gráfico de uma mesma função, as figuras permitem que se veja com clareza que o primeiro ponto é de sela, e o segundo de mínimo. Novamente, usamos o recurso do gráfico tridimensional para visualizar os pontos. O gráfico das curvas de nível é o seguinte: Observe o “olho” (uma elipse) próximo a (1,1) e as curvas vagamente semelhantes a hipérboles em (0, 0). A associação entre as cônicas e o tipo de ponto crítico é mais facilmente percebida dessa forma. Note, porém, que essa característica pode ser difícil ou mesmo impossível de ser percebida (como no exemplo anterior); esse é mais um motivo para se optar pelo método analítico utilizado. Exemplo 3: g ( x, y , z ) = ( x − 2) 2 + ( y − 3) 2 + ( z − 1) 2 Embora este seja um campo escalar tridimensional (o que dificulta a plotagem de um gráfico), o procedimento a ser seguido é o mesmo. 10 Passo 1: Calcular derivadas parciais ∂g = 2 x − 4, ∂x ∂g = 2 y − 6, ∂y Passo 2: Resolver o sistema ∂g = 2z − 2 ∂z ∂g ∂g ∂g = = =0 ∂x ∂y ∂z S = ( 2,3,1) Passo 3: Calcular a Hessiana no ponto crítico P = (2, 3, 1). Hessiana ∂2g 2 ∂x2 ∂ g ∂x∂y 2 ∂ g ∂x∂z ∂2g ∂x∂y ∂2g ∂y 2 ∂2g ∂y∂z ∂2g ∂x∂z 2 0 0 ∂2g = 0 2 0 ∂y∂z 0 0 2 ∂2g ∂z 2 Como a Hessiana é constante nesse caso, ela tem esse valor no ponto P. Passo 4: Determinar autovalores da Hessiana no ponto crítico λ1 = λ 2 = λ3 = 2 Esse resultado indica que o ponto P é um ponto de mínimo do campo g(x, y, z). De fato, o campo é nulo somente nesse ponto, e positivo em qualquer outro ponto do espaço (pode-se ver isso analisando a função do campo, que é a de esferas centradas em P; apenas uma tem raio zero – o próprio ponto. Não há esferas com raio negativo, portanto em P há um mínimo, tanto local como global). Com esses exemplos, pudemos confirmar a validade do método para funções de várias variáveis, quer sejam campos escalares ou não. Recursos visuais ou numéricos podem ser usados em alguns casos, mas o método dos autovalores da Hessiana costuma ser mais prático e geral. Dadas as condições de suficiência do método (função com segundas derivadas contínuas e Hessiana não nula), pode-se aplicá-lo em muitas situações.