Máximos e Mínimos

Transcripción

Máximos e Mínimos
Máximos e Mínimos em
Funções de Várias Variáveis:
Uma Aplicação da Fórmula de
Taylor, com Análise de
Autovalores da Matriz
Hesiana
André Oliveira Maroneze
MA211 – Turma K
23/11/2003
RA 023146
1
Máximos e Mínimos em Funções de Várias Variáveis
Em diversas situações, os pontos mais interessantes de uma função (de uma ou
várias variáveis) são os pontos de máximo ou mínimo – os pontos intermediários
geralmente não apresentam muitas características interessantes.
Tais pontos são relativamente fáceis de serem encontrados, e podem ser
estabelecidas diversas restrições a sua localização. Por suas características especiais, esses
pontos são determinados de forma precisa: para funções de uma única variável, qualquer
candidato a máximo ou mínimo tem derivada nula. Seja porque a função pára de crescer
nele, seja porque ela inicia sua ascensão, pontos de derivada nula podem ocorrer em três
situações diferentes:
1 – O ponto é um máximo (local ou absoluto): em um pequeno intervalo ao redor do
ponto, todos os valores da função são menores ou iguais a ele;
2 – O ponto é um mínimo (local ou absoluto): em um pequeno intervalo ao redor do
ponto, todos os valores da função são maiores ou iguais a ele;
3 – O ponto é uma inflexão: pontos em um pequeno intervalo à sua esquerda são
menores ou iguais a ele, e à sua direita são maiores, ou vice-versa.
Situações análogas a essas três ocorrem também em funções de várias variáveis,
embora nesse caso seja um pouco mais complicado descobrir tais pontos. Em funções de
várias variáveis, a ocorrência de uma derivada parcial nula nem sempre representa algo
muito útil; quando se quer minimizar tais funções, costuma-se procurar por pontos em que
todas as derivadas parciais sejam nulas; somente assim se garante um ponto crítico, que
pode vir a ser de três tipos:
1 – Ponto de máximo: análogo ao caso anterior, exceto que o intervalo, desta vez, é
n-dimensional ao redor do ponto. Se a função é de n variáveis, é preciso considerar valores
próximos da função em n dimensões.
2 – Ponto de mínimo: também análogo ao interior, com a mesma ressalva em
relação ao intervalo.
3 – Ponto de sela: Assim chamado por sua aparência em gráficos tridimensionais de
funções de duas variáveis (a região próxima parece uma sela de cavalo), tal ponto
representa um máximo (local ou absoluto) em uma dimensão e um mínimo (local ou
absoluto) em alguma outra, ou representa um ponto de inflexão em uma ou várias
dimensões; mas não significa que a função possua valores mínimos ou máximos nele.
Essa situação determina que, conhecidas as derivadas parciais de uma função,
sabemos onde estão pontos críticos da mesma; no entanto, não sabemos em qual situação
estamos, a menos que façamos alguns testes numéricos com a função nas proximidades, ou
visualizemos seu gráfico. Mas isso nem sempre é possível (ou desejável). Nesse caso,
analogamente ao que fazíamos nas funções de uma única variável, podemos estabelecer um
método mais preciso (e mais prático, também, do ponto de vista computacional), baseandonos nas segundas derivadas da função.
Existem vários métodos conhecidos para isso; uns usam conceitos como autovalores
e autovetores; outros se baseiam em conseqüências desses elementos sem mencioná-los. Se
considerarmos uma função bi ou tridimensional de um campo escalar, podemos deduzir as
características desejadas a partir de considerações sobre a fórmula de Taylor de segunda
ordem. Faremos uma demonstração apenas para o caso de uma função de duas variáveis,
2
mas o método geral é válido para funções de mais variáveis também. Sejam f(x,y) um
campo escalar e (x0, y0) = (x + ∆x, y + ∆y) um ponto desse campo. A fórmula de Taylor nos
fornece, então:
f ( x, y ) = f ( x 0 , y 0 ) + ∆x
∂f ( x 0 , y 0 )
∂f ( x 0 , y 0 )
+ ∆y
+
∂x
∂y

∂ 2 f ( x0 , y0 )
∂ 2 f ( x0 , y 0 )
1  ∂ 2 f ( x0 , y 0 ) 2
x
2
x
y
∆
+
∆
∆
+
∆y 2  + R

2
2
2
∂x∂y
∂x
∂y

onde R representa o resto (às vezes chamado de erro) da aproximação.
Essa fórmula permite que relacionemos a matriz Hessiana (matriz das segundas
derivadas da função) com a determinação dos pontos críticos. Neles, a primeira derivada é
nula, portanto os valores da função nas proximidades dependem basicamente dos termos
entre os colchetes. Podemos realizar as seguintes substituições:
∂ 2 f ( x0 , y0 ) 2
∆x ,
a=
∂x 2
∂ 2 f ( x0 , y0 )
∂ 2 f ( x0 , y 0 ) 2
∆x∆y , c =
∆y
b=
∂x∂y
∂y 2
Então temos uma expressão para os termos quadráticos:
Q(∆x, ∆y) = a ∆x2 + 2b∆x∆y + c∆y2 =f(x ,y) – f(x0, y0)
nos pontos críticos, onde a primeira derivada é nula. Podemos escrever essa
expressão na forma matricial:
a b   ∆x 
Q(∆x, ∆y ) = [∆x ∆y ]
 
b c  ∆y 
E obtemos justamente a matriz Hessiana:
 ∂2 f
a b  ∂x 2
b c  =  ∂ 2 f

 
 ∂x∂y

∂2 f 

∂x∂y 
∂2 f 
∂y 2 
Portanto, para a análise dos pontos críticos, é necessário que as segundas derivadas
da função existam e sejam diferentes de zero (nesse último caso, a matriz Hessiana, embora
existente, não fornece as informações que procuramos).
Podemos relacionar a matriz Hessiana com uma cônica em um plano; é possível
diagonalizá-la, e para tal usamos um processo idêntico ao da rotação de uma cônica. Outra
semelhança entre a forma da matriz e a característica do ponto crítico pode ser vista quando
desenhamos as curvas de nível da função: quando o ponto é de sela, geralmente obtemos
hipérboles; quando é de máximo ou mínimo, costumamos ter elipses ou círculos. Uma
3
característica das hipérboles é apresentar autovalores de sinais contrários em sua matriz de
termos quadráticos, enquanto que elipses possuem autovalores de sinais iguais.
Resumindo, temos a seguinte relação entre os sinais dos autovalores da Hessiana e o
caso do ponto crítico:
Sinais dos autovalores
Todos positivos
Ao menos um positivo e um negativo
Todos negativos
O ponto crítico é
Ponto de mínimo
Ponto de sela
Ponto de máximo
Quando temos um caso de uma função de duas variáveis, podemos determinar as
mesmas características observando o sinal do primeiro elemento da matriz Hessiana e seu
determinante. Se o determinante é negativo, o ponto em questão é um ponto de sela; se o
determinante é positivo, precisamos checar o sinal do primeiro elemento: sendo positivo, o
ponto é de mínimo; caso contrário, é de máximo. Se o determinante for zero, não obtemos
informação alguma sobre o ponto. Não é difícil chegar a essa conclusão partindo da análise
dos autovetores, usando alguns conceitos de álgebra linear; para simplificar, podemos
lembrar que, caso os autovetores tenham valores diferentes, a multiplicação de ambos para
o cálculo do determinante resultará em valor negativo; do contrário, o determinante é
positivo – nesse caso, ou ambos os termos são negativos (ponto de mínimo) ou positivos
(ponto de máximo), o que nos força checar o sinal do primeiro elemento. Embora isso seja
obtido diretamente em uma matriz ortogonal (onde o termo misto é nulo), não é difícil
mostrar que é válido para outras.
Para auxiliar na compreensão desse método simples e eficiente, exemplificaremos
com algumas funções, mostrando o processo de análise, gráficos e os pontos críticos.
Exemplo 1:
g ( x, y ) = sin x cosh y
Obtemos as derivadas parciais:
∂g
∂g
= cos x cosh y,
= sin x sinh y
∂x
∂y
Os pontos críticos possuem derivada nula, então temos de encontrar os pontos para
os quais:
∂g ∂g
=
=0
∂x ∂y
Resolvendo as equações, obtemos a seguinte solução:
x=k
π
,
2
k ∈Ζ
y=0
Como a função cosseno é periódica, temos infinitos pontos críticos; plotamos então
um trecho no intervalo -2π ≤ x ≤ 2π, -2 ≤ y ≤ 2:
4
Há quatro pontos críticos nesse intervalo, sendo todos pontos de sela. Podemos
confirmar que são pontos críticos traçando retas tangentes à função nos pontos (que
representam as derivadas parciais); devem ser paralelas aos eixos x e y. Pode-se confirmar
isso mudando o ângulo de visão do gráfico. Abaixo, a visão do plano xz:
5
A seguir, visões dos planos xz e xy, respectivamente:
Essas retas, traçadas no ponto (-π/2, 0, -1), mostram que as derivadas parciais nesse
ponto são nulas. Assim, ele é um ponto crítico.
Como sabemos da existência de pontos críticos no campo escalar, calculemos a
matriz Hessiana:
 ∂2g
 2
 ∂x2
∂ g
 ∂x∂y

∂2g 

∂x∂y  − sin x cosh y cos x sinh y 
=
∂ 2 g   cos x sinh y sin x cosh y 
∂y 2 
6
Podemos utilizar um sistema algébrico computacional para calcular os autovalores
da matriz. Na maioria dos softwares utilizados atualmente, por serem feitos em inglês, o
comando é o termo autovalor traduzido para o inglês: eigenvalue. No MuPAD, por
exemplo, podemos utilizar o linalg::eigenvalues(). Existe um comando para o cálculo
numérico de autovalores, geralmente mais eficiente, mas ele não funciona com elementos
simbólicos. Colocamos o nome da matriz entre parênteses. Para a Hessiana da função dada,
o programa responde com dois valores:
λ1 = cos 2 x sinh 2 y + sin 2 x cosh 2 y
λ 2 = − cos 2 x sinh 2 y + sin 2 x cosh 2 y
Calculando no ponto P1 = (π/2, 0):
λ1 = 1
λ 2 = −1
Analisando a expressão dos autovalores, percebemos que eles são os mesmos para
todos os pontos críticos. Assim, provamos que os pontos são de sela, pois os autovalores
têm sinais contrários. Não precisaríamos ter plotado os gráficos para descobrir isso, e essa é
uma das grandes vantagens do método.
Nota: a função do campo escalar bidimensional foi plotada como se fosse uma
função tridimensional. É muito mais revelador que um gráfico do campo. A figura a seguir
mostra as curvas de nível. Certamente torna mais difícil identificar onde estão os pontos
críticos e de que tipo são.
7
Exemplo 2:
g ( x, y ) = x 3 + y 3 − 3 xy
Como já fizemos todo o desenvolvimento anteriormente, aqui vamos resumir os
passos. Desta vez, encontraremos os pontos e sua forma antes de olharmos o gráfico.
Passo 1: Calcular derivadas parciais
∂g
= 3x 2 − 3 y
∂x
∂g
= 3 y 2 − 3x
∂y
Passo 2: Resolver o sistema
∂g ∂g
=
=0
∂x ∂y
S = {(0,0), (1,1)}
(O sistema possui soluções complexas, mas estamos nos restringindo ao espaço real,
por isso elas foram descartadas.)
Passo 3: Calcular a Hessiana nos pontos críticos
Hessiana
 ∂2g
 2
 ∂x2
∂ g
 ∂x∂y

Em P1 = (0, 0)
∂2g 

∂x∂y   6 x − 3
=
∂ 2 g  − 3 6 y 
∂y 2 
 0 − 3
− 3 0 


Em P2 = (1, 1)
 6 − 3
− 3 6 


Passo 4: Determinar autovalores das Hessianas nos pontos críticos
Em P1:
Em P2:
λ1 = −3
λ1 = 3
λ2 = 3
λ2 = 9
Assim, temos que P1 é um ponto de sela e P2 é um ponto de mínimo (local ou
absoluto).
Como a função é de duas variáveis, poderíamos tentar usar o método do
determinante para obter o mesmo resultado. Na Hessiana em P1, temos det = -9 (ponto de
sela). Na Hessiana em P2, temos det = 25 e H1,1 > 0 (ponto de mínimo).
8
Visualizemos o gráfico da função para confirmar:
(Nota: devido à forma da curva, torna-se difícil visualizar os pontos e os planos
tangentes em um mesmo gráfico; por isso, optamos por dividi-lo em dois, um para cada
ponto crítico, para que se possa ver melhor que um é ponto de sela, e o outro de mínimo.)
9
A primeira figura mostra o ponto P1 = (0, 0, 0), e a segunda P2 = (1, 1, -1). Em
ambas as figuras, o ponto está centrado na intersecção das retas pretas (paralelas aos eixos
cartesianos). As retas azuis são as “fatias” dos planos xz e yz nas coordenadas dos pontos
(feitas para ajudar a visualização: as retas pretas são as projeções dessas azuis no plano
tangente à função nos pontos críticos, que é paralelo ao xy).
Embora os intervalos adotados tornem muito difícil ver que são partes do gráfico de
uma mesma função, as figuras permitem que se veja com clareza que o primeiro ponto é de
sela, e o segundo de mínimo.
Novamente, usamos o recurso do gráfico tridimensional para visualizar os pontos. O
gráfico das curvas de nível é o seguinte:
Observe o “olho” (uma elipse) próximo a (1,1) e as curvas vagamente semelhantes a
hipérboles em (0, 0). A associação entre as cônicas e o tipo de ponto crítico é mais
facilmente percebida dessa forma. Note, porém, que essa característica pode ser difícil ou
mesmo impossível de ser percebida (como no exemplo anterior); esse é mais um motivo
para se optar pelo método analítico utilizado.
Exemplo 3:
g ( x, y , z ) = ( x − 2) 2 + ( y − 3) 2 + ( z − 1) 2
Embora este seja um campo escalar tridimensional (o que dificulta a plotagem de
um gráfico), o procedimento a ser seguido é o mesmo.
10
Passo 1: Calcular derivadas parciais
∂g
= 2 x − 4,
∂x
∂g
= 2 y − 6,
∂y
Passo 2: Resolver o sistema
∂g
= 2z − 2
∂z
∂g ∂g ∂g
=
=
=0
∂x ∂y ∂z
S = ( 2,3,1)
Passo 3: Calcular a Hessiana no ponto crítico P = (2, 3, 1).
Hessiana
 ∂2g
 2
 ∂x2
∂ g
 ∂x∂y
 2
∂ g
 ∂x∂z
∂2g
∂x∂y
∂2g
∂y 2
∂2g
∂y∂z
∂2g 

∂x∂z  2 0 0
∂2g  
= 0 2 0

∂y∂z
 0 0 2
∂2g  
∂z 2 
Como a Hessiana é constante nesse caso, ela tem esse valor no ponto P.
Passo 4: Determinar autovalores da Hessiana no ponto crítico
λ1 = λ 2 = λ3 = 2
Esse resultado indica que o ponto P é um ponto de mínimo do campo g(x, y, z). De
fato, o campo é nulo somente nesse ponto, e positivo em qualquer outro ponto do espaço
(pode-se ver isso analisando a função do campo, que é a de esferas centradas em P; apenas
uma tem raio zero – o próprio ponto. Não há esferas com raio negativo, portanto em P há
um mínimo, tanto local como global).
Com esses exemplos, pudemos confirmar a validade do método para funções de
várias variáveis, quer sejam campos escalares ou não. Recursos visuais ou numéricos
podem ser usados em alguns casos, mas o método dos autovalores da Hessiana costuma ser
mais prático e geral. Dadas as condições de suficiência do método (função com segundas
derivadas contínuas e Hessiana não nula), pode-se aplicá-lo em muitas situações.