사이버-레닌 개선 일지(260228)
이제는 레닌봇이 일기 쓰기 전에 검색한 최신 뉴스 정보를 지식그래프에 저장하며 장기기억력을 보강 중이다...
여러 객체를 노드에 넣고 객체간 관계 또는 행위를 연결선에 넣는 지식그래프 구성과 그 구성을 이용해 단순 텍스트 검색보단 좀더 복잡한 연계관계를 질의해 정보를 얻어오는 GraphRAG 의 개념 자체는 어렵지 않은데...
사람이 일일이 값을 넣지 않는 한 raw 데이터를 LLM로 해석해 노드와 엣지 값을 추출하는 거라, 바로 써먹기 적절치 않은 정제되지 않은 값이 많이 나온다. 용어 통일도 잘 안 돼서(예: 어떤 엣지엔 '수출하다', 어떤 엣지엔 '판매하다'로 이름이 들어간다든가) 임베딩값 유사도로 커버하거나 카테고리를 계층형으로 만들어야한다
그리고 사실 구조보단 데이터 취합과 정제, 분석 파이프라인을 깎아내며 쌓은 경험이 중요하다. 팔란티어처럼 2003년부터 미국 전쟁과 정부 기밀 데이터 분석, 활용을 수행하며 20년 넘게 실전을 거친 기업을 따라잡는데엔 시간이 꽤 걸린다. 국가가 소유한 데이터 양이 많을수록 구축도 쉬워지는데, 조건을 만족하는 건 중국(전쟁 경험은 미비하나 자국에서 수집한 데이터의 규모가 엄청남)이나 이스라엘 정도. 유럽은 지금까지 팔란티어 서비스 계약해서 쓰고 있다가 이제야 소버린 AI 만들기 시작했고... 일본과 한국도 미국 의존성 높이기 싫어서 자체 소버린 AI 만든다는데 실현가능성은 회의적이다.
참고로 미국에선 사기업의 데이터 판매가 합법이라, 정부에서 여러 개인정보 데이터를 마구 취합한지 오래다. 에드워드 스노든이 밝힌 것처럼 도감청 등의 불법 취득 방법도 당연히 써왔고. 데이터 양은 많은데 그 많은 데이터 처리가 힘들어서 놔두고 있었다만 AI의 발전으로 대량 처리가 가능해진 상태.
여러 객체를 노드에 넣고 객체간 관계 또는 행위를 연결선에 넣는 지식그래프 구성과 그 구성을 이용해 단순 텍스트 검색보단 좀더 복잡한 연계관계를 질의해 정보를 얻어오는 GraphRAG 의 개념 자체는 어렵지 않은데...
사람이 일일이 값을 넣지 않는 한 raw 데이터를 LLM로 해석해 노드와 엣지 값을 추출하는 거라, 바로 써먹기 적절치 않은 정제되지 않은 값이 많이 나온다. 용어 통일도 잘 안 돼서(예: 어떤 엣지엔 '수출하다', 어떤 엣지엔 '판매하다'로 이름이 들어간다든가) 임베딩값 유사도로 커버하거나 카테고리를 계층형으로 만들어야한다
그리고 사실 구조보단 데이터 취합과 정제, 분석 파이프라인을 깎아내며 쌓은 경험이 중요하다. 팔란티어처럼 2003년부터 미국 전쟁과 정부 기밀 데이터 분석, 활용을 수행하며 20년 넘게 실전을 거친 기업을 따라잡는데엔 시간이 꽤 걸린다. 국가가 소유한 데이터 양이 많을수록 구축도 쉬워지는데, 조건을 만족하는 건 중국(전쟁 경험은 미비하나 자국에서 수집한 데이터의 규모가 엄청남)이나 이스라엘 정도. 유럽은 지금까지 팔란티어 서비스 계약해서 쓰고 있다가 이제야 소버린 AI 만들기 시작했고... 일본과 한국도 미국 의존성 높이기 싫어서 자체 소버린 AI 만든다는데 실현가능성은 회의적이다.
참고로 미국에선 사기업의 데이터 판매가 합법이라, 정부에서 여러 개인정보 데이터를 마구 취합한지 오래다. 에드워드 스노든이 밝힌 것처럼 도감청 등의 불법 취득 방법도 당연히 써왔고. 데이터 양은 많은데 그 많은 데이터 처리가 힘들어서 놔두고 있었다만 AI의 발전으로 대량 처리가 가능해진 상태.