|
|
Lexikon auf Ihrer Homepage |
|
Lexikon als Lesezeichen hinzufügen |
In der Analysis heißt eine Funktion <math>f</math> von einem Intervall <math>I</math> (oder allgemeiner einer konvexen Teilmenge <math>C</math> eines reellen Vektorraums) nach <math>\R</math> konvex, wenn für alle <math>x,y</math> aus <math>I</math> (bzw. aus <math>C</math>) und <math>t</math> zwischen 0 und 1 gilt
Anschaulich bedeutet die Definition: Die Funktionswerte zwischen zwei Werten <math>x</math>,<math>y</math> liegen unterhalb oder auf der Verbindungsgeraden der beiden Funktionswerte an <math>x</math> und <math>y</math>.
Gilt das Ungleichheitszeichen in die umgekehrte Richtung, also
für alle <math>x</math>, <math>y</math> aus <math>I</math> und <math>t</math> zwischen 0 und 1, so wird die Funktion als konkav bezeichnet.[1]
Um Missverständlichkeiten im Zusammenhang mit der anschaulich-geometrischen Bedeutung beider Begriffe vorzubeugen, präzisiert man die Begriffe „konvex“ und „konkav“ im hier diskutierten Kontext zuweilen noch einmal durch zusätzliche Angabe einer Blickrichtung, also beispielsweise den hier verwendeten Begriff „konvex“ als „konvex von unten“ und den Begriff „konkav“ – im Gegensatz dazu – als „konvex von oben“.[2]
Eine Funktion heißt streng konvex oder strikt konvex, wenn für alle <math>x \neq y</math> aus <math>I</math> (bzw. <math>C</math>) und <math>t</math> echt zwischen 0 und 1 gilt
Analog heißt eine Funktion streng konkav oder strikt konkav, wenn für alle <math>x \neq y</math> aus <math>I</math> (bzw. <math>C</math>) und <math>t</math> echt zwischen 0 und 1 gilt
Die besondere Bedeutung konvexer bzw. konkaver Funktionen liegt darin, dass sie allgemeiner als lineare Funktionen sind, aber einfach zu untersuchende Eigenschaften haben, die viele Aussagen über nichtlineare Systeme, beispielsweise in der konvexen Optimierung, ermöglichen.
Inhaltsverzeichnis
|
Wesentliche Aussagen zu konvexen und konkaven Funktionen finden sich bereits 1889 bei Otto Hölder, wobei er aber die Bezeichnungen konvex und konkav noch nicht verwendete.[3] Die Bezeichnungen konvex und konkav für Funktionen wurden 1905 von Johann Ludwig Jensen eingeführt.[4] Jensen verwendete dazu allerdings noch die gelegentlich, vor allem in älteren Werken[5] anzutreffende schwächere Definition
für die er zeigte, dass daraus für stetige Funktionen die eingangs genannte Ungleichung
für alle <math>t</math> zwischen 0 und 1 folgt.[6] Für Details siehe jensensche Ungleichung.
Der Graph einer konvexen Funktion ist so gewölbt, dass die Menge der Punkte oberhalb des Graphen, der sogenannte Epigraph, eine konvexe Menge ist. Zu beachten ist, dass eine nicht-konvexe Funktion nicht automatisch konkav sein muss, d. h., konvex und konkav sind hier nicht komplementär. Jede lineare Funktion ist sowohl konkav als auch konvex. Die kubische Funktion <math>x \mapsto x^3</math> ist im Bereich aller positiven <math>x</math>-Werte streng konvex und im Bereich aller negativen <math>x</math>-Werte streng konkav. Somit ist diese Funktion über ganz <math>\mathbb{R}</math> weder konvex noch konkav.
Eine Funktion <math>f</math> ist genau dann konvex (konkav), wenn die Funktion <math>-f</math> konkav (konvex) ist.
Ist <math>f</math> invertierbar und setzt man <math>x=f^{-1}(u), y=f^{-1}(v)</math>, so erhält man für eine konvexe Funktion
Für eine monoton steigende Funktion gilt also
Für eine invertierbare, monoton steigende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die umgekehrte Art der Konvexität, ist also monoton steigend und konkav (konvex), siehe z. B. <math>e^x</math> und <math>\ln x</math>.
Für eine monoton fallende Funktion gilt hingegen
Für eine invertierbare monoton fallende und konvexe (konkave) Funktion hat daher die Umkehrfunktion die gleiche Art der Konvexität, ist also streng monoton fallend und konvex (konkav), siehe z. B. <math>1/x</math> auf <math>(-\infty,0)</math> bzw. <math>(0,\infty)</math>.
Ist <math>f\colon \R \to \R</math> differenzierbar, dann gilt
Alternativ:
Der Zusammenhang zwischen Konvexität und zweiter Ableitung wurde im Wesentlichen schon 1889 von Otto Hölder beschrieben.[3] Für zweimal differenzierbare Funktionen <math>f\colon\R \to \R</math> gilt:
Ist die Funktion <math>f\colon\R^n \to \R</math> zweimal stetig differenzierbar, dann gilt
Da konvexe bzw. konkave Funktionen die Eindeutigkeit von Extremwerten sicherstellen, spielen sie in der nicht-linearen Optimierung eine wichtige Rolle.
Sind <math>f</math> und <math>g</math> zwei konvexe (konkave) Funktionen, so ist auch jede Linearkombination <math>a f + b g</math> mit nichtnegativen Koeffizienten <math>a,b</math> wieder konvex (konkav).
Der Grenzwert einer punktweise konvergenten Folge konvexer (konkaver) Funktionen ist auch wieder eine konvexe (konkave) Funktion. Ebenso ist die Summe einer punktweise konvergenten Reihe konvexer (konkaver) Funktionen auch wieder eine konvexe (konkave) Funktion.
Ist <math>\lbrace f_\alpha:\alpha \in A \rbrace</math> eine Menge konvexer Funktionen und existiert punktweise das Supremum
für alle <math>x</math>, so ist auch <math>f</math> eine konvexe Funktion.
Für das Infimum gilt das nicht, wie das Beispiel <math>f_1(x)=1</math>, <math>f_2(x)=x</math> zeigt.
Ist <math>\lbrace f_\alpha:\alpha \in A \rbrace</math> eine Menge konkaver Funktionen, und existiert punktweise das Infimum
für alle <math>x</math>, so ist auch <math>f</math> eine konkave Funktion.
Für das Supremum gilt das nicht, wie das Beispiel <math>f_1(x)=1</math>, <math>f_2(x)=x</math> zeigt.
Für konvexe und konkave Funktionen gilt die jensensche Ungleichung.
Für <math>t<0</math> oder <math>t>1</math> dreht sich das Ungleichheitszeichen um, für konvexe Funktionen gilt dann also
sofern <math>u:=t x+(1-t)y</math> noch im Intervall <math>I</math> (bzw. in der konvexen Menge <math>C</math>) ist. Um das zu sehen, sei beispielsweise <math>t>1</math>, dann gilt <math>x=\frac 1t u+\frac{t-1}t y</math>, wegen Konvexität also
somit
Jede auf einem offenen Intervall definierte konvexe Funktion ist stetig. Setzt man umgekehrt Stetigkeit voraus, so reicht für Konvexität bereits die Bedingung, dass für alle <math>x</math>,<math>y</math> aus <math>I</math> gilt
es reicht sogar, dass für ein beliebiges, aber fixes <math>\lambda</math> mit <math>0<\lambda<1</math>
für alle <math>x</math>,<math>y</math> aus <math>I</math> gilt.
Setzt man Stetigkeit voraus, so reicht für Konvexität in einer konvexen Teilmenge <math>C</math> eines reellen topologischen Vektorraums bereits die Bedingung, dass ein beliebiges, aber fixes <math>\lambda\in\R</math> mit <math>0<\lambda<1</math> existiert, sodass für alle <math>x</math>,<math>y</math> aus <math>C</math> gilt:
Um dies zu sehen, betrachtet man die Menge <math>T</math> aller „guten“ <math>t</math>, die durch
definiert ist.
Seien nun <math>u,v\in T</math>. Dann gilt auch <math>\lambda u + \left(1-\lambda\right)v \in T</math>, denn
&f\Big(\left(\lambda u + \left(1-\lambda\right)v\right)x+\left(1-\lambda u - \left(1-\lambda\right)v\right)y\Big)\\ &\quad=f\Big(\lambda(ux+(1-u)y)+ (1-\lambda)(vx+(1-v)y)\Big)\\ &\quad\leq \lambda f\Big(ux+(1-u)y\Big)+ (1-\lambda)f\Big(vx+(1-v)y\Big)\\ &\quad\leq \lambda \Big( uf(x)+(1-u)f(y)\Big)+ (1-\lambda)\Big(vf(x)+(1-v)f(y)\Big)\\ &\quad=\Big(\lambda u + (1-\lambda)v\Big)f(x)+ \Big(1- \lambda u - (1-\lambda)v\Big) f(y).
\end{align} </math>
Sein nun <math>t</math> eine beliebige reelle Zahl mit <math>0<t<1</math>. Dann lässt sich eine Intervallschachtelung <math>[u_n,v_n]</math> mit <math>u_n, v_n \in T</math> konstruieren, die gegen <math>t</math> konvergiert: Sei <math>u_0=0, v_0=1</math> und <math>0\leq u_n\leq t < v_n\leq 1</math> und <math>0<v_n-u_n\leq q^n</math> mit <math>0<q:=\min\left(\lambda, 1-\lambda\right)<1</math>.
Sei <math>t_n:=\lambda u_n + \left(1-\lambda\right)v_n</math>.
Ist <math>t_n\leq t</math>, so setzt man <math>u_{n+1}:=t_n\!</math>, <math>v_{n+1}:=v_n\!</math>, und es gilt <math>v_{n+1}-u_{n+1}=\lambda(v_n-u_n)\!</math>.
Ist <math>t_n> t\!</math>, so setzt man <math>u_{n+1}:=u_n\!</math>, <math>v_{n+1}:=t_n\!</math>, und es gilt <math>v_{n+1}-u_{n+1}=(1-\lambda)(v_n-u_n)\!</math>.
<math>u_{n+1}, t_{n+1}\!</math> sind ebenfalls aus <math>T\!</math>, es gilt <math>t\in[u_{n+1}, v_{n+1}]\!</math> und <math>0<v_{n+1}-u_{n+1}\leq q^{n+1}</math>.
Die so konstruierte Intervallschachtelung konvergiert also gegen <math>t\!</math>; wegen der Stetigkeit von <math>f\!</math> gilt daher <math>t\in T\!</math>. Da <math>t\!</math> beliebig gewählt war, folgt also <math>T=[0,1]\!</math>, und <math>f\!</math> ist konvex.
Dass Stetigkeit für die schwächere Definition wirklich benötigt wird, lässt sich mit folgendem Gegenbeispiel zeigen: Ist <math>b_j</math><math>\in \R, j\in J</math> eine Hamelbasis des Vektorraums der reellen Zahlen über dem Körper der rationalen Zahlen, also eine über den rationalen Zahlen linear unabhängige Menge reeller Zahlen, in der jede reelle Zahl <math>r</math> eine Darstellung der Art <math>r=\sum_{j\in J}q_j b_j</math> mit nur endlich vielen rationalen <math>q_j\neq 0</math> hat, so erfüllt bei beliebiger Wahl von <math>f(b_j)</math> die Funktion <math>f(r):=\sum_{j\in J}q_j f(b_j)</math> zwar <math>f\left(\frac{x+y}{2}\right) \le \frac{f(x)+f(y)}{2},</math> ist aber nicht notwendigerweise konvex.
Setzt man für eine Funktion <math>f</math> zusätzlich zur Bedingung, dass für ein fixes <math>\lambda\in(0,1)\!</math> die Beziehung
für alle <math>x</math>,<math>y</math> aus einer konvexen Teilmenge <math>C</math> eines normierten Vektorraums gilt, noch voraus, dass <math>f</math> nach oben beschränkt ist, so folgt daraus bereits die Stetigkeit von <math>f</math> in den inneren Punkten von <math>C</math>. Anschaulich wird dies daraus klar, dass man an einer Unstetigkeitsstelle eine beliebig steile Verbindungsgerade zwischen zwei Funktionswerten ziehen kann, wobei die Funktion zwischen den beiden Werten unterhalb der Verbindungsgeraden und außerhalb der beiden Werte oberhalb der Verbindungsgerade liegen muss. Kann die Verbindungsgerade nun beliebig steil werden, so stößt man irgendwann über die obere Schranke der Funktion.
Formal ist der Beweis allerdings etwas komplizierter. Zunächst beachte man, dass aus den obigen Voraussetzungen für natürliche Zahlen <math>n</math> und
folgt, dass
bzw.
Sei nun <math>a</math> ein beliebiger innerer Punkt von <math>C</math> und
eine zur Gänze in <math>C</math> enthaltene offene Kugel um <math>a</math>. Wäre nun <math>f</math> nicht stetig in <math>a</math>, so gäbe es ein <math>\varepsilon>0</math>, so dass für jedes <math>\delta>0</math> ein <math>x</math> existiert, so dass zwar <math>\|a-x\|<\delta</math>, aber <math>|f(x)-f(a)|>\varepsilon</math>. Sein nun <math>n\in\N</math> so gewählt, dass
wobei <math>M</math> eine obere Schranke für <math>f</math> sei. Wählt man nun <math>\delta=\lambda^n \rho\!</math>, so existiert also ein <math>x</math> mit
aber
Angenommen, <math>f(x)>f(a)+\epsilon</math>. Dann gilt für <math>y:=\frac{1}{\lambda^n}x-\left(\frac{1}{\lambda^n}-1\right)a</math>
Das kann aber nicht sein, da <math>\|y-a\|=\frac{1}{\lambda^n}\|x-a\|<\rho</math>. Daher liegt <math>y</math> in <math>C</math>, und es muss <math>f(y)<M</math> gelten.
Sei daher <math>f(x)<f(a)-\epsilon</math>. Dann gilt für <math>z:=\frac{1}{\lambda^n} a-\left(\frac{1}{\lambda^n}-1\right)x</math>
Das kann aber auch nicht sein, da <math>\|z-a\|=\left(\frac{1}{\lambda^n}-1\right)\|x-a\|<\rho</math>. Daher liegt auch <math>z</math> in <math>C</math>, und es muss ebenfalls <math>f(z)<M</math> gelten.
<math>f</math> muss daher stetig in <math>a</math> sein.
Die Aussage, dass eine konvexe beschränkte Funktion stetig in den inneren Punkten ist, ist auch bedeutsam für das Lösen der cauchyschen Funktionalgleichung
Aus dieser Aussage folgt nämlich, dass diese Funktionalgleichung eine eindeutige Lösung hat, wenn zusätzlich gefordert wird, dass <math>f</math> beschränkt ist.
Im unendlichdimensionalen Fall brauchen konvexe Funktionen nicht stetig zu sein, da es lineare (also somit auch konvexe) Funktionale gibt, die nicht stetig sind. Allerdings gilt, dass beschränkte konvexe Funktionale eines normierten Vektorraums stetig sind.
Konvexe Funktionen <math>f</math> einer konvexen Teilmenge <math>C</math> des endlichdimensionalen reellen Vektorraums <math>\R^n</math> sind stetig in den inneren Punkten. Um das zu sehen, betrachte man einen inneren Punkt <math>a\in C</math>. Für diesen existiert ein Simplex <math>S_n\subseteq C</math> mit den Eckpunkten <math>p_1,\dotsc,p_n,p_{n+1}</math>, der <math>a</math> wieder als inneren Punkt enthält. Jeder Punkt <math>x\in S_n</math> ist aber in der Form
mit
und <math>0\le t_j\le 1</math> für alle <math>j</math> darstellbar. Nach der jensenschen Ungleichung gilt nun
<math>f</math> ist daher nach oben beschränkt und somit, wie oben gezeigt wurde, stetig im inneren Punkt <math>a</math>.
In Randpunkten können konvexe Funktionen unstetig sein, wie das Beispiel der Funktion <math>[0,\infty)\to \R</math> mit
f(x)=\begin{cases}
1, & \text{falls } x=0,\\
0, & \text{sonst},
\end{cases}</math> zeigt, die zwar konvex ist, aber am Randpunkt <math>x=0</math> eine Unstetigkeit aufweist.