Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству
Knowledge Extraction and Visualization from Textual Sources Intended for Construction Project Management
Authors
Nedeljković, Đorđe Lj.
Contributors
Kovačević, MilošIvanišević, Nenad

Praščević, Nataša

Ivković, Branislav

Milutinović, Veljko
Doctoral thesis (Published version)
Metadata
Show full item recordAbstract
Током животног циклуса инвестиционог пројекта ствара се велики корпус неструктуираних и полуструктуираних докумената. Традиционални приступи у складиштењу и организовању информација из неструктуираних податка су оријентисани на рад са документима, што их чини неподесним за анализу и издвајање знања. У неструктуираним документима је отежано прикупљање, анализа и поновно коришћење релевантних информација у интегралном облику, што може изазвати проблеме на пројекту услед неблаговремених или неодговарајућих одлука.У овој дисертацији је приказана репрезентација информација издвојених из неструктуираних текстуалних докумената у облику графа значајних фраза, који корисницима треба да омогући визуелизацију и анализу значајних чињеница на пројекту са минималном количином уложеног труда. Са циљем да се конструише доменски независна репрезентација са минималним трудом експерта за претходно конфигурисање, значајне фразе су детектоване у вишејезичном окружењу применом статистичких мера за одређивањ...е корелисаности пара речи. Граф садржи аутоматски издвојене значајне фразе које су повезане на основу сличности семантичких контекста.Репрезентација је имплементирана у графовској бази података што корисницима омогућава да детектују и визуелизују различите скривене обрасце у подацима. Неинформативне фразе су филтриране кроз поступке одређивања ентропије скупа контекста и динамичности суседства фразе кроз више графова који представљају тренутке у времену. Приказана је хеуристика за издвајање комплексних концепата, заснована на итеративној процедури за детекцију блиских фраза које припадају истом семантичком подграфу. Могућности примене предложене репрезентације су демонстриране на графу конструисаном за постојећи корпус докумената са међународног инвестиционог пројекта.
During a construction project lifecycle, an extensive corpus of unstructured or semi-structured text documents is generated. Traditional approaches for information storing and organizing are document-oriented, which is highly inconvenient for data analysis and knowledge extraction. The nature of unstructured sources impedes users’ acquisition, analysis, and reuse of relevant information, leading to possible negative effects in the project management process.This dissertation suggests a procedure for automatic extraction of relevant project concepts from unstructured text documents. Concepts are organized in the form of a key-phrase network, intended to provide users with the possibility to visualize and analyze valuable project facts with less effort. With the objective of constructing a domain-independent and language-independent key-phrase network, with minimal expert involvement for configuration, an approach to detect key phrases was examined by using measures of correlation for wo...rd pairs. A network contains key phrases automatically extracted from various types of unstructured documents, with relations based on the similarity of semantic contexts.The representation was implemented as a graph database, enabling project participants to extract and visualize various patterns in data. The problem of noisy key phrases was reduced by introducing the entropy score for a set of co-occurring contexts and the measure of phrase neighborhood dynamics throughout construction project lifecycle. A heuristic for extraction of complex concepts is presented, based on the iterative procedure for detection of adjacent key phrases belonging to a same semantic subnetwork. Possible applications, such as concept tracking through time or determination of communication patterns between project participants, is demonstrated using a key-phrase network generated for the existing document corpus from an international construction project.
Keywords:
nestruktuirani podaci / unstructured data / key-phrase extraction / entropy / semantic network / relationship / key-phrase network / visualization / neighborhood dynamics / project management / izdvajanje značajnih fraza / entropija / semantička mreža / relacija / graf značajnih fraza / vizuelizacija / dinamičnost suseda / upravljanje projektimaSource:
Универзитет у Београду, 2018Publisher:
- Универзитет у Београду, Грађевински факултет
Funding / projects:
- The application of GNSS and LIDAR technology for infrastructure facilities and terrain stability monitoring (RS-36009)
- Research on condition assessment and improvement methods of civil engineering structures in view of their serviceability, load-bearing capacity, cost effectiveness and maintenance (RS-36048)
URI
http://eteze.bg.ac.rs/application/showtheses?thesesId=6485https://fedorabg.bg.ac.rs/fedora/get/o:19221/bdef:Content/download
http://vbs.rs/scripts/cobiss?command=DISPLAY&base=70036&RID=513801618
http://nardus.mpn.gov.rs/123456789/10623
https://grafar.grf.bg.ac.rs/handle/123456789/1684
Collections
Institution/Community
GraFarTY - THES AU - Nedeljković, Đorđe Lj. PY - 2018 UR - http://eteze.bg.ac.rs/application/showtheses?thesesId=6485 UR - https://fedorabg.bg.ac.rs/fedora/get/o:19221/bdef:Content/download UR - http://vbs.rs/scripts/cobiss?command=DISPLAY&base=70036&RID=513801618 UR - http://nardus.mpn.gov.rs/123456789/10623 UR - https://grafar.grf.bg.ac.rs/handle/123456789/1684 AB - Током животног циклуса инвестиционог пројекта ствара се велики корпус неструктуираних и полуструктуираних докумената. Традиционални приступи у складиштењу и организовању информација из неструктуираних податка су оријентисани на рад са документима, што их чини неподесним за анализу и издвајање знања. У неструктуираним документима је отежано прикупљање, анализа и поновно коришћење релевантних информација у интегралном облику, што може изазвати проблеме на пројекту услед неблаговремених или неодговарајућих одлука.У овој дисертацији је приказана репрезентација информација издвојених из неструктуираних текстуалних докумената у облику графа значајних фраза, који корисницима треба да омогући визуелизацију и анализу значајних чињеница на пројекту са минималном количином уложеног труда. Са циљем да се конструише доменски независна репрезентација са минималним трудом експерта за претходно конфигурисање, значајне фразе су детектоване у вишејезичном окружењу применом статистичких мера за одређивање корелисаности пара речи. Граф садржи аутоматски издвојене значајне фразе које су повезане на основу сличности семантичких контекста.Репрезентација је имплементирана у графовској бази података што корисницима омогућава да детектују и визуелизују различите скривене обрасце у подацима. Неинформативне фразе су филтриране кроз поступке одређивања ентропије скупа контекста и динамичности суседства фразе кроз више графова који представљају тренутке у времену. Приказана је хеуристика за издвајање комплексних концепата, заснована на итеративној процедури за детекцију блиских фраза које припадају истом семантичком подграфу. Могућности примене предложене репрезентације су демонстриране на графу конструисаном за постојећи корпус докумената са међународног инвестиционог пројекта. AB - During a construction project lifecycle, an extensive corpus of unstructured or semi-structured text documents is generated. Traditional approaches for information storing and organizing are document-oriented, which is highly inconvenient for data analysis and knowledge extraction. The nature of unstructured sources impedes users’ acquisition, analysis, and reuse of relevant information, leading to possible negative effects in the project management process.This dissertation suggests a procedure for automatic extraction of relevant project concepts from unstructured text documents. Concepts are organized in the form of a key-phrase network, intended to provide users with the possibility to visualize and analyze valuable project facts with less effort. With the objective of constructing a domain-independent and language-independent key-phrase network, with minimal expert involvement for configuration, an approach to detect key phrases was examined by using measures of correlation for word pairs. A network contains key phrases automatically extracted from various types of unstructured documents, with relations based on the similarity of semantic contexts.The representation was implemented as a graph database, enabling project participants to extract and visualize various patterns in data. The problem of noisy key phrases was reduced by introducing the entropy score for a set of co-occurring contexts and the measure of phrase neighborhood dynamics throughout construction project lifecycle. A heuristic for extraction of complex concepts is presented, based on the iterative procedure for detection of adjacent key phrases belonging to a same semantic subnetwork. Possible applications, such as concept tracking through time or determination of communication patterns between project participants, is demonstrated using a key-phrase network generated for the existing document corpus from an international construction project. PB - Универзитет у Београду, Грађевински факултет T2 - Универзитет у Београду T1 - Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству UR - https://hdl.handle.net/21.15107/rcub_nardus_10623 ER -
@phdthesis{ author = "Nedeljković, Đorđe Lj.", year = "2018", abstract = "Током животног циклуса инвестиционог пројекта ствара се велики корпус неструктуираних и полуструктуираних докумената. Традиционални приступи у складиштењу и организовању информација из неструктуираних податка су оријентисани на рад са документима, што их чини неподесним за анализу и издвајање знања. У неструктуираним документима је отежано прикупљање, анализа и поновно коришћење релевантних информација у интегралном облику, што може изазвати проблеме на пројекту услед неблаговремених или неодговарајућих одлука.У овој дисертацији је приказана репрезентација информација издвојених из неструктуираних текстуалних докумената у облику графа значајних фраза, који корисницима треба да омогући визуелизацију и анализу значајних чињеница на пројекту са минималном количином уложеног труда. Са циљем да се конструише доменски независна репрезентација са минималним трудом експерта за претходно конфигурисање, значајне фразе су детектоване у вишејезичном окружењу применом статистичких мера за одређивање корелисаности пара речи. Граф садржи аутоматски издвојене значајне фразе које су повезане на основу сличности семантичких контекста.Репрезентација је имплементирана у графовској бази података што корисницима омогућава да детектују и визуелизују различите скривене обрасце у подацима. Неинформативне фразе су филтриране кроз поступке одређивања ентропије скупа контекста и динамичности суседства фразе кроз више графова који представљају тренутке у времену. Приказана је хеуристика за издвајање комплексних концепата, заснована на итеративној процедури за детекцију блиских фраза које припадају истом семантичком подграфу. Могућности примене предложене репрезентације су демонстриране на графу конструисаном за постојећи корпус докумената са међународног инвестиционог пројекта., During a construction project lifecycle, an extensive corpus of unstructured or semi-structured text documents is generated. Traditional approaches for information storing and organizing are document-oriented, which is highly inconvenient for data analysis and knowledge extraction. The nature of unstructured sources impedes users’ acquisition, analysis, and reuse of relevant information, leading to possible negative effects in the project management process.This dissertation suggests a procedure for automatic extraction of relevant project concepts from unstructured text documents. Concepts are organized in the form of a key-phrase network, intended to provide users with the possibility to visualize and analyze valuable project facts with less effort. With the objective of constructing a domain-independent and language-independent key-phrase network, with minimal expert involvement for configuration, an approach to detect key phrases was examined by using measures of correlation for word pairs. A network contains key phrases automatically extracted from various types of unstructured documents, with relations based on the similarity of semantic contexts.The representation was implemented as a graph database, enabling project participants to extract and visualize various patterns in data. The problem of noisy key phrases was reduced by introducing the entropy score for a set of co-occurring contexts and the measure of phrase neighborhood dynamics throughout construction project lifecycle. A heuristic for extraction of complex concepts is presented, based on the iterative procedure for detection of adjacent key phrases belonging to a same semantic subnetwork. Possible applications, such as concept tracking through time or determination of communication patterns between project participants, is demonstrated using a key-phrase network generated for the existing document corpus from an international construction project.", publisher = "Универзитет у Београду, Грађевински факултет", journal = "Универзитет у Београду", title = "Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству", url = "https://hdl.handle.net/21.15107/rcub_nardus_10623" }
Nedeljković, Đ. Lj.. (2018). Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству. in Универзитет у Београду Универзитет у Београду, Грађевински факултет.. https://hdl.handle.net/21.15107/rcub_nardus_10623
Nedeljković ĐL. Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству. in Универзитет у Београду. 2018;. https://hdl.handle.net/21.15107/rcub_nardus_10623 .
Nedeljković, Đorđe Lj., "Издвајање и визуелизација знања из текстуалних извора за потребе управљања инвестиционим пројектима у грађевинарству" in Универзитет у Београду (2018), https://hdl.handle.net/21.15107/rcub_nardus_10623 .