A mesterséges intelligencia változatai és hasznosítása az építészeti tervezés folyamatában
AI építészeknek
Szöveg: Tankó Kincső Mária
A mesterséges intelligencia naponta hatalmas fejlődéseken megy keresztül, aminek köszönhetően egyre nagyobb hangot kap az építészetben is. Ez által felmerül az építészekben a gyakori kérdés: jelen pillanatban mire képes a mesterséges intelligencia?
Sokat olvashattunk a mesterséges intelligenciáról és annak napról napra fejlődő típusairól, ami egyre jobban beférkőzik mindennapjainkba, és persze az építészet területére is. Mire is képesek jelenleg ezek a mesterséges intelligenciák, és hogyan tudja egy építész ezeket felhasználni? Jelen kutatás azokat a mesterséges intelligenciákat (továbbiakban MI) elemzi, melyek az építészeti tervezés folyamataiban hasznosíthatók. Ezen területen a tanulmány az MI-k két nagy csoportját elemzi: azokat, amelyek 2D-s, illetve 3D-s kimeneteket generálnak. Ezeken belül kategóriákba helyezi az MI-ket, attól függően, hogy mi képezi a bemenetet: rajzok, képek, fényképek, szöveg vagy szkennelés okostelefon használatával. Az egyes kategóriákba legfeljebb három MI tartozik, ezek összehasonlításából kiderül, hogy melyik mire alkalmazható, és ezek közül melyik használata ajánlott a leginkább. A tanulmány végén egy összesítő táblázat segít az MI „tudásának”, képességeinek átláthatóságában. Minden elemzett MI egyszerű hozzáféréssel, ingyenesen elérhető. Az elemzés során 1-től 5-ig értékeltem az MI tulajdonságait, és a pontszámokat összeadva az MI típusokat rangsorba helyezem.
Mi a mesterséges intelligencia (MI)?
Mielőtt részletesebben bele merülnénk az MI különböző változataiba az építészet területén, nézzük meg, mi is az a mesterséges intelligencia, ami olyan gyorsan elterjedt, hódít, beférkőzik a mindennapjaink különböző területeire.
A mesterséges intelligencia egy olyan technológia, amely lehetővé teszi számítógépek és gépezetek részére az emberi intelligencia utánozását és a problémamegoldás képességét.1
Mivel az emberi intelligenciát utánozza, ezért felépítésében, működési elvében az emberi agyról van mintázva.2
A mesterséges intelligenciának két nagy csoportja van: a gyenge MI és az erős MI. 3, 4
A szűk (vagy másképp gyenge) MI egy szűken meghatározott feladat megoldására fókuszál. Bármennyire is tűnik úgy, hogy az MI önállóan végzi a feladatot, igazából több kisebb feladat összehangolásáról van szó, előre meghatározott keretek között hoz döntéseket, és hiányzik belőle az érzelem, a tudatosság. Ez a típusú MI a jelenlegi legmagasabb szintű. Ez vesz minket körül, és ezt használjuk a mindennapokban.5, 6
A szűk MI-nek két típusú tanulási módja van: a gépi tanulás és a mély tanulás. Mindkét forma neurális hálózatokat használ, amely az emberi agy működéséből ihletődött. 7 A gépi tanulás úgynevezett felügyelt tanulás, amelyhez emberi beavatkozás szükséges. A bemeneti adathalmaz, amellyel az MI dolgozik, aktív emberi beavatkozást igényel, például címkékkel kell ellátni, rendszerezni kell, szükséges a kimenet ellenőrzése. Így minden egyes használat és kiértékelés után az MI tanul és fejlődik.8, 9 A mély tanulás az úgynevezett felügyelet nélküli tanulás. Ebben az esetben a bemeneti adathalmaz feldolgozásához nem szükséges emberi beavatkozás.10 Mély tanulással tanítják be azokat az MI-ket, amelyek képesek például a képfelismerésre.11 Ezek azok a típusú MI-k, amelyek az elemzésben is szerepelnek, és hasznát vesszük az építészeti tervezés folyamataiban.
Az általános MI és a mesterséges szuperintelligencia (vagy erős MI) egy elméleti szintű MI, amelyekkel a sci-fi filmekben szoktunk találkozni. Ezek az MI-k képesek az emberi intelligenciával egyenlő mértékben gondolkodni, fejlődni, illetve azt túlszárnyalva öntudattal rendelkeznek és képesek bonyolult problémákat megoldani, bonyolult helyzetekben döntést hozni. 12 13
Tehát az MI nem ördögtől való dolog. Tőlünk függ a fejlődése, működése, és az is, hogy milyen területeken használnánk a leginkább.
Most már tudjuk, hogy a kutatásban szereplő és elemzett MI-k a szűk MI-hez tartoznak, amely a mély tanulást alkalmazzák. Ahhoz, hogy el tudjuk dönteni mire és mikor használnánk ezeket az MI-ket, meg kell nézzük, melyek a lehetőségek, és jelenleg mire képesek.
2D-s kimeneteket generáló MI típusok
Először a 2D-s kimeneteket generáló MI típusokat mutatom be. Ide tartoznak a szövegből, rajzból és képből generál kimenetek. Az elemzésben látványokat és alaprajzokat generáló MI-k szerepelnek. A kategórián belül ugyanaz a két, különböző nehézségi szintű bemenet kerül megfigyelésre: egy egyszerűbb, és egy olyan, ami nagyobb kihívást jelenthet az MI számára. A bemenetek minőségileg is eltérnek, próbára téve az MI képességeit.
1. Szövegből generált 2D-s kimenetek
Szövegből látvány generálásához a következő MI-ket választottam: Prome AI, LookX AI, DALL-E AI. Az MI-k nyelve az angol. A bemeneti szöveget angolul kell megfogalmazni. Ha valakinek nehézséget okozna a nyelv, online fordítókkal (Google Translate,14 DeepL15) megoldhatja ezt a problémát. Viszont, ha van referenciaképünk arról, hogy körülbelül milyen stílusban szeretnénk előállítani a látványt, akkor egyes MI-k lehetőséget adnak arra, hogy bemenetként a szöveg mellé egy képet is csatoljunk. Egy másik lehetőség, hogy egy olyan MI-t hívjunk segítségül, amely megfogalmazza számunkra a megfelelő bemeneti szöveget. Ilyen például az AI Text Prompt Generator,16 a Quicktools by Picsart,17 az Admaker by Picsart,18 és még sok más. Azoknál az MI-k, amelyek szövegből generálnak, fontos a pontos megfogalmazás, illetve minden olyan részlet, amely elősegíti, hogy a végeredmény minél közelebb legyen az elképzeléseinkhez. Például fény, stílus, időjárás, környezet, fókuszálás, nézőpont, kivágás stb.
Nézzük a táblázatba foglalt MI-ket, melyek tulajdonságait saját tapasztalataim alapján pontoztam.
A szövegből generált 2D-s kimenetek eltérő eredményeket hoztak létre. Látszik, hogy az MI-k különböző módon értelmezik az utasításokat. A LookX AI tudta a legkevésbé generálni az elvárt eredményt. A Prome AI és a DALL-E sokkal közelebb állt a generált kimenetekkel az elvárt eredményhez. A szöveges bemeneteknél érdemes minél részletesebben leírni az elvárt eredményt, nemcsak az elképzelt épületet, funkciót, környezetet, időjárást, hanem a látószöget, fókuszálást, részletezettségi szintet. A Prome AI ebből a szempontból is több segítséget nyújt, kiválaszthatjuk a számunkra kedvező beállításokat a generálás előtt. Abból a szempontból is felhasználóbarát, hogy a publikussá tett generálásoknál megnézhetjük a beállítások paramétereit, ami segítségünkre lehet. Ötleteléshez, inspirációhoz, koncepcióterv elindításához ajánlott ezeket az MI-ket használni.
2. Rajzból generált 2D-s kimenetek
Továbbá, a 2D-s kimenetek generálásához igyekeztem megtartani ugyanazokat az MI-ket, ha képességük megfelelő volt az adott alcsoporthoz. Így a rajzból generált 2D-s kimenetekhez a Veras AI, a Prome AI és a LookX AI került elemzésre. Ennél a csoportnál két különböző komplexitású rajzon keresztül elemeztem az MI-k képességeit: az egyik egy általam rajzolt vonalas stílusú rajz, a másik Makovecz Imre rajza az általa tervezett katedrálisról.
A rajzból generált kimenetek nagyrészt megfeleltek az elvárásoknak. Egyik MI sem érzékelte a rajzomon az íves felületet. A LookX AI még a rajz textúráját is átvette a homlokzatképzésbe. A környezet és az épület tömege mindhárom MI-nél jól jelenik meg. Érdekes látni, hogy bár sokkal jobb eredmények születnek kevés utasítással kép alapján, de az eredmények mégis eltérőek, izgalmasak. Ha van egy elképzelésünk, rajzunk, ezek sokat segíthetnek az MI-k a textúra, szín, anyaghasználat kiválasztásában, akár egy megbeszélés alatt. Ajánlott koncepció, vázlatterv szinten használni.
3. Képből generált 2D-s kimenetek
Ugyanazokat az MI-ket elemzem, mint az előző alcsoportban, vagyis a Veras, Prome AI és a LookX AI. Újból két különböző komplexitású képet választottam. Az egyik egy saját makett általam készített fényképe, a másik egy történelmi épület általam készített digitális modell makettszerű látványa. Ebben az esetben a makettről készült fénykép kisebb felbontásban lett használva, próbára téve az MI képességeit.
A generált látványokhoz szükséges a jó minőségű kép. A gyengébb fénykép gyenge kimeneteket eredményezett. A Veras-nak sikerült a képhez legközelebb álló látványt generálni. A LookX azt jelezte, hogy számára nem elegendő a kép felbontása, és ez befolyásolhatja az eredményt. A történelmi épületről készült látvány esetében a legközelebb a Prome AI által generált kimenet áll. A Veras kihagyta a környezetet, valamint másképp értelmezte az oromfal formáját. Érdemes figyelni az utasításokra, valamint a jó minőségű fényképek használatára. Ajánlott a koncepciótervek, vázlattervek felhasználásánál, változatok kialakításánál, anyaghasználat, szín szempontjából.
4. Skiccelt vagy szerkesztett alaprajzból generált új alaprajz
Az eddigiektől kissé eltérő, és ugyancsak látványos MI típus az, amely rajz vagy szerkesztett alaprajz alapján generál új alaprajzot. Az előző típusoknál elemzett MI-k rendelkeznek ezzel a képességgel is. Ebben az esetben a bemenet kép formátumú, és az eredmény ugyancsak kép formátum lesz. Bemenetként két különböző típusú, funkciójú és komplexitási szinttel rendelkező alaprajzot választottam. Mivel ezek az MI-k általában lakóépületek alaprajzainak generálására alkalmasak, ezzel ellentétben egy múzeum és egy szálloda funkcióval ellátott alaprajz került bemenetként, ami az utasításba is bele lett írva. Egy skiccelt múzeum alaprajza nagy kiállítóterekkel, és egy ArchiCAD-ben szerkesztett szálloda alaprajza, bonyolultabb formával és beosztással. Érdekesség: ebben az esetben ezeket az MI-ket hétköznap, késő este próbáltam ki, 22:00 óra után és nagyon le voltak terhelve, várakozási idő is volt, egyfajta virtuális sorban állás. Ilyenkor az MI jelzi, hogy körülbelül még hányan generálnak éppen. Az időt onnantól mértem, amikor eljött az én lehetőségem a generálásra.
A többi alaprajzot generáló MI-től eltérően, találkoztam egy olyan MI-vel, amelynek ingyenes verziójánál képet vár bemenetként, és meghatározott paraméterek felhasználásával új alaprajzot generál, műszaki vagy 3D-s felülnézet stílusban. Ennek az MI-nek az előfizetős változata az igazán érdekes. Ebben az esetben az MI csak a paraméterek alapján, akár kép nélkül generál új alaprajzot, több szintről is. A paraméterek változatossága is kibővül, sokkal több lehetőséget biztosít. Akár DWG formátumot is választhatunk kimenetként.
Bármennyire is jónak hangzik, az ingyenes változat esetében meg van kötve a kezünk, és nem tudjuk a lehető legjobban kihasználni az MI képességeit. Komolyabb felhasználásra ezt az MI-t sem ajánlom.
Ezeknél az MI-knél a legszembetűnőbb probléma az, hogy az utasítások ellenére sem képesek a lakóépület funkciótól eltérő alaprajzok generálására. Ajánlott koncepcióterv szinten velük foglalkozni, vagy amikor egy skiccet szeretnénk látványosabbá alakítani.
3D-s kimeneteket generáló MI típusok
Következik a 3D-s kimeneteket generáló MI típusok bemutatása. Itt három alcsoport kerül elemzésre, pontosabban azok az MI-k, amelyek: szövegből, képből és szkenneléssel (okostelefon segítségével) generálnak 3D-s kimeneteket. Az elemzésbe minden esetben olyan MI-k kerültek, amelyek eredményként egy letölthető 3D modellt hoznak létre. Mindhárom MI-nél olyan bemenetek kerültek elemzésre, melyek bizonyos szinten próbára teszik az MI képességeit, és egy átláthatóbb képet nyújt az általános működési elvéről.
1. Szövegből generált 3D-s kimenet
A szövegből generált 3D-k generálásához is az angol nyelvet használjuk. Ebben az esetben ugyancsak használhatunk általunk megfogalmazott utasításokat, vagy egy MI által generált utasítást. Ennek a kategóriának az elemzéséhez mindkét típusú utasítást használtam, az eredmény jobb összehasonlítása érdekében: egy általam megfogalmazott utasítást, és a Meshy AI referenciakép alapján generált utasítást, így kiderül, hogy mikor melyiket érdemesebb használni. Ebbe a kategóriába tartozik a Luma AI, a Tripo AI és a Meshy AI.19
Ezeknél az MI-knél összefüggő mondatokból álló utasításokra van szükség, nem csak szópárokra, mint a 2D-s kimenetek generálásához. A szövegből generált 3D-s kimeneteknél érdemesebb egy MI-t segítségül hívni, mivel a részletesebb utasítások jobb eredményeket generálnak. Egyedül a Tripo AI generált az általam megfogalmazott utasítások során is egy jó modellt. Összességben egyik MI-t sem ajánlom komolyabb felhasználásra. Környezet létrehozásához, látvány kiegészítéséhez megfelel, de más célra nem elég jó minőségű az eredmény.
2. Képből generált 3D-s kimenet
Számomra meglepő volt, amikor rátaláltam ezekre az MI-kre. Kíváncsian vágtam bele kipróbálásukba: valóban tud már ilyet az MI? Egyetlen képből egy 3D modell? Az elemzéshez az általam digitálisan modellezett történelmi épületről alkotott látványt használtam fel. Ezzel a képességgel rendelkező MI-k a következők: a ZoeDepth, a Tripo AI és a Meshy AI.
Ebben a kategóriában meglepő eredmények születtek. Az MI nemcsak kivágja a képből az objektumot, hanem még viszonylag jó modellt generál. A Tripo AI akár kiegészíti egy teljes, egész épületté. Itt a Tripo AI volt az, amely a legjobban teljesített, bár nem egyszerű a felhasználása. A Meshy AI generált modellje is nagy százalékban megegyezik a bemeneti képen látható épülettel. A ZoeDepth egy domborműhöz hasonló modellt hoz létre. Az objektum mélységét a környezetével együtt elemzi, és ez alapján hozza létre a modellt. Bár a kép alapján 3D-t generáló MI-k eredményei meglepőek, a kimenetek még nagyon kezdetlegesek. Komolyabb felhasználásra nem alkalmasak.
3. Okostelefon segítségével, szkenneléssel generálnak 3D-s kimeneteket
Egy újabb MI, amely sokat ígér. Kérdés az, hogy mit nyújt? Ezekhez a típusú MI-khez Androidos okostelefont használtam, amelyre letöltöttem az applikációkat. Olyan objektumot választottam elemzésként, amely könnyen körbejárható, és nincs zavaró elem körülötte. Ez esetben egy szökőkutat. Nem épület, viszont formája, részletei, anyaga, felületei kihívást jelenthetnek az MI-knek. Az MI-k működésének elemzéséhez megfelelő választás volt.
Sajnos az Opal AI-t nem tudtam kipróbálni a megfelelő eszköz hiánya miatt, LiDAR rendszerű kamerára lett volna szükség, de mindenkit buzdítok a kipróbálására és élményei megosztására. Kimenetei 3D CAD és BIM modellek, Revit, AutoCAD, Sketchup, Rhino, PDF stb. A 3D modell alapján 10 percen belül alaprajzokat tud generálni20 és ingyenes. Mindenképp ajánlom az építészek figyelmébe.
A leghasznosabb MI-k ebben a csoportban egy építész számára azok, amelyek szkenneléssel generálnak 3D modellt. Ha a 3D modell egy létező objektum, akkor mindenképp érdemes ezeket az MI-ket használni. A szkennelés az MI számára több fénykép (sorozatkép) készítését vagy videófelvételt jelent. Úgy gyorsaság, minőség, mint kimenet és további felhasználás szempontjából is megfelelő, melyet egy építész munkássága során gyakran alkalmazhat felmérésekre, vázlattervekhez vagy restaurálás esetén is. Mindkét MI esetében a generált modell megfelelő eredményt alkotott a meglévő objektumról. Talán először írhatom le a dolgozat során, hogy elégedett vagyok az MI által generált kimenet eredményével.
A 2D-s és a 3D-s kimeneteket generáló MI-k részére egy összesítő táblázat által átláthatóbbá válik, hogy melyik MI-t milyen építészeti folyamathoz lehet használni és melyik használata ajánlott a leginkább, illetve milyen tulajdonságokkal, képességekkel rendelkezik.
A 2D-s kimenetek generálásánál a Prome AI bizonyult a legmegfelelőbb eszköznek. Általában elmondható, hogy bár a 2D-s kimeneteket generáló MI-k nagyon látványos eredményeket hoznak, a részletek, a teljes pontosság hiánya miatt a leginkább koncepcióterv, vázlatterven használatára alkalmasak.
A 3D-s kimenetek generálásánál a Tripo AI és a Meshy AI került ki győztesként, viszont ebben a csoportban az MI-k még nagyon kezdetlegesek. Komolyabb felhasználásra nem ajánlottak. Azok az MI-k, amelyek szkennelés által hoznak létre 3D modellt, igen hasznosak lehetnek a felmérési tervekhez, meglévő elemek, tárgyak, épületek, terek gyors modellezéséhez.
Bármelyik MI segítséget nyújthat a tervezés kezdetleges lépcsőfokainál, de egyikben sem lehet 100%-ban megbízni, hogy azt az eredményt produkálja, amire nekünk szükségünk van. Mindezeket félre téve, ajánlom, hogy próbálják ki, a képzeletünket szabadon engedve lenyűgöző eredmények születhetnek.
Minden MI nyelve más. Különböző módon kell velük kommunikálni. Sokat segít ilyenkor, ha az adott MI weboldalán tanító videókat vagy cikkeket, utasításokat kapunk arról, hogyan is tudjuk elérni a kívánt eredményt. Pár próbálkozás úgyis szükséges, amíg kitapasztaljuk az MI viselkedését, felhasználását az utasításokra.
El tudja-e foglalni az MI az építészek helyét?
A képen az öt éves keresztlányom rajza látható, amelyből a Veras nevezetű MI egy igen modern épület látványát generálta. Valószínű, hogy a keresztlányomnak nem ilyen ház volt a képzeletében, amikor azt lapra vetette. Innen is látszik, hogy a megfelelő beállításokkal az MI bármilyen rajzból tud elámító látványt generálni.
Bár az építészek munkájában egyre nagyobb szerepet kap a látvány, nem ez az egyedüli és a meghatározó munkarész a tervezés során. Ennél sokkal nagyobb, komplexebb, stratégiai és logikai feladatsor áll az építész szakma mögött, míg a képzeletből szülői gondoskodással eljut a megvalósított alkotásig. Az MI-k jelenlegi képességei nem tudják helyettesíteni az építészeket.
Következtetés
Ahogy az elemzésből látható, az MI-k bizonyos szempontból fejlettek, főként a 2D-s kimeneteket generáló MI-k. Van még mit tanuljanak, de koncepció, vázlatterv látvány szinten már hasznát vehetjük az építészeti munka folyamatában. Lenyűgöző, jó minőségű látványokat tudnak előállítani rövid idő alatt. Módosítási lehetőséget is nyújtanak, ha valamilyen részt másképp képzeltünk el, vagy több változatot szeretnénk létrehozni.
Bármennyire is fejlettek ezek a típusú MI-k, teljesen nem tudjuk át adni nekik a tervezést. Komplexebb, pontosságot igénylő terveknél egyszerűbb, ha mi rajzoljuk meg, vagy mi állítjuk elő a látványt a megszokott eszközökkel, módszerekkel.
A 3D-s kimeneteket generáló MI-k meglepő eredményeket alkottak. Bár az építészeti folyamat jelentős részeinél nem használhatók, de egy gyors kutatáshoz, vagy környezetgeneráláshoz használhatók. A két csoport közül ez a csoport még komoly fejlődést igényel ahhoz, hogy igazán használható legyen.
Amint látjuk, az MI létezik, még sokat kell fejlődnie, de már bizonyos munkaterületeken az építészetben is hasznát vehetjük. Csak rajtunk múlik, hogy mennyire hagyjuk átengedni magunkat az MI-nek. Mi vezetjük a tervezés folyamatát, vagy az MI? Tudatosan, okosan, logikusan, józan ésszel, az emberit szem előtt tartva és megőrizve iktassuk be az MI használatát úgy az életünkbe, mint a tervezési folyamatainkba, de ne úgy, mint egy dobókockát: amit „kidob” nekünk, azt kérdés nélkül elfogadjuk.
A tanulmány az Óbudai Egyetem Ybl Miklós Építéstudományi Karán megrendezett 2. Ybl Konferencián (2024. május 17.) elhangzott előadás szöveges változata
(Magyar Építőművészet Utóirat 2024/4)
Jegyzetek
1 IBM – What is artificial intelligence (AI)?
https://www.ibm.com/topics/artificial-intelligence (megnyitva: 2024. április)
2 Bernard Marr (2017 április 25.): The Complete Beginners’ Guide to Artificial Intelligence, Forbes
https://www.forbes.com/sites/bernardmarr/2017/04/25/the-complete-beginners-guide-to-artificial-intelligence/ (megnyitva: 2024. április)
3 Mit jelent a mesterséges intelligencia? Azure Microsoft
https://azure.microsoft.com/hu-hu/resources/cloud-computing-dictionary/what-is-artificial-intelligence#%C3%B6nvezet%C5%91-aut%C3%B3k (megnyitva: 2024. április)
4 IBM – What is artificial intelligence (AI)?
https://www.ibm.com/topics/artificial-intelligence (megnyitva: 2024. április)
5 Mit jelent a mesterséges intelligencia? Azure Microsoft
https://azure.microsoft.com/hu-hu/resources/cloud-computing-dictionary/what-is-artificial-intelligence#%C3%B6nvezet%C5%91-aut%C3%B3k (megnyitva: 2024. április)
6 IBM – What is artificial intelligence (AI)?
https://www.ibm.com/topics/artificial-intelligence (megnyitva: 2024. április)
7 Ibidem
8 Briana Brownell (2021 március): How does artificial intelligence learn?, TEDEd
https://www.ted.com/talks/briana_brownell_how_does_artificial_intelligence_learn/transcript?language=en (megnyitva: 2024. április)
9 IBM – What is artificial intelligence (AI)?
https://www.ibm.com/topics/artificial-intelligence (megnyitva: 2024. április)
10 Ibidem
11 Mit jelent a mesterséges intelligencia? Azure Microsoft
https://azure.microsoft.com/hu-hu/resources/cloud-computing-dictionary/what-is-artificial-intelligence#%C3%B6nvezet%C5%91-aut%C3%B3k (megnyitva: 2024. április)
12 Ibidem
13 IBM – What is artificial intelligence (AI)?
https://www.ibm.com/topics/artificial-intelligence (megnyitva: 2024. április)
14 https://translate.google.com/?hl=hu (megnyitva: 2024. április)
15 https://www.deepl.com/translator (megnyitva: 2024. április)
16 https://aitextpromptgenerator.com/ (megnyitva: 2024. április)
17 https://tools.picsart.com/text/prompt-generator/ (megnyitva: 2024. április)
18 https://onlineadmaker.com/tools/prompt-generator/ (megnyitva: 2024. április)
19 A kép, amelyről a Meshy AI utasítást generált: https://en.wikipedia.org/wiki/Villa_Savoye (megnyitva: 2024. április)
20 https://www.opal-ai.com/ (megnyitva: 2024. április)